Sprache auswählen

German

Down Icon

Land auswählen

England

Down Icon

OpenAI überging die Bedenken von Expertentestern und veröffentlichte das unterwürfige GPT-4o

OpenAI überging die Bedenken von Expertentestern und veröffentlichte das unterwürfige GPT-4o

Abonnieren Sie unsere täglichen und wöchentlichen Newsletter, um die neuesten Updates und exklusiven Inhalte zur branchenführenden KI-Berichterstattung zu erhalten. Mehr erfahren

Für das hinsichtlich der Benutzerzahl führende Unternehmen für generative KI war es eine ziemlich turbulente Woche.

OpenAI, der Entwickler von ChatGPT, veröffentlichte eine aktualisierte Version des zugrundeliegenden multimodalen (Text, Bild, Audio) Large Language Model (LLM), mit dem ChatGPT standardmäßig verbunden ist (GPT-4o), und zog sie anschließend wieder zurück, da es den Nutzern gegenüber zu unterwürfig war. Das Unternehmen meldete kürzlich mindestens 500 Millionen aktive wöchentliche Nutzer des erfolgreichen Webdienstes.

OpenAI begann am 24. April mit der Aktualisierung von GPT-4o auf ein neueres Modell, von dem man hoffte, dass es von den Benutzern besser angenommen würde, schloss die Aktualisierung bis zum 25. April ab und nahm sie dann fünf Tage später, am 29. April, wieder zurück , nachdem sich tagelang die Beschwerden der Benutzer in den sozialen Medien – hauptsächlich auf X und Reddit – gehäuft hatten.

Die Beschwerden waren in ihrer Intensität und Spezifität unterschiedlich, liefen aber im Allgemeinen alle auf die Tatsache hinaus, dass GPT-4o auf Benutzeranfragen offenbar mit unangemessener Schmeichelei reagierte, fehlgeleitete, falsche und geradezu schädliche Ideen unterstützte und den Benutzer übermäßig „beschönigte“ oder lobte, obwohl dies nicht ausdrücklich erwünscht und schon gar nicht gerechtfertigt war.

In Beispielen, die von Benutzern als Screenshots erstellt und gepostet wurden, hatte ChatGPT, das auf dem kriecherischen, aktualisierten GPT-4o-Modell basiert, eine Geschäftsidee für buchstäblich „Scheiße am Stiel“ gelobt und unterstützt, dem Beispieltext eines Benutzers über schizophrene, wahnhafte Isolation Beifall gezollt und angeblich sogar Pläne zur Begehung terroristischer Anschläge unterstützt.

Nutzer, darunter führende KI-Forscher und sogar ein ehemaliger Interims-CEO von OpenAI, äußerten ihre Befürchtung, dass das unverhohlene Anfeuern eines KI-Modells für diese Art von schlechten Benutzeranweisungen mehr als nur nervig oder unangemessen sei – dass es Nutzern, die der KI fälschlicherweise glaubten und sich durch ihre Unterstützung ihrer schlimmsten Ideen und Impulse ermutigt fühlten, tatsächlich schaden könnte. Dies sei zu einem KI-Sicherheitsproblem geworden.

OpenAI veröffentlichte daraufhin einen Blogbeitrag, in dem beschrieben wurde, was schiefgelaufen war – „wir haben uns zu sehr auf kurzfristiges Feedback konzentriert und nicht vollständig berücksichtigt, wie sich die Interaktionen der Benutzer mit ChatGPT im Laufe der Zeit entwickeln. Infolgedessen neigte GPT‑4o zu Antworten, die zwar übermäßig unterstützend, aber unaufrichtig waren“ – und welche Schritte das Unternehmen unternahm, um die Probleme zu beheben. Joanne Jang, Leiterin für Modellverhalten bei OpenAI, nahm auch an einem „Ask me anything“- bzw. AMA-Forum auf Reddit teil, beantwortete Textbeiträge von Benutzern und gab weitere Informationen über den Ansatz des Unternehmens in Bezug auf GPT-4o preis und wie es zu einem übermäßig unterwürfigen Modell kam, das unter anderem „nicht genügend Nuancen“ in Bezug auf die Berücksichtigung von Benutzerfeedback wie „Daumen hoch“-Aktionen von Benutzern als Reaktion auf Modellergebnisse, die ihnen gefielen, enthielt.

Heute hat OpenAI einen Blogbeitrag mit noch mehr Informationen darüber veröffentlicht , wie es zu dem unterwürfigen GPT-4o-Update kam – das nicht einem bestimmten Autor, sondern „OpenAI“ zugeschrieben wird.

CEO und Mitgründer Sam Altman postete ebenfalls einen Link zum Blogbeitrag auf X und sagte: „Wir haben mit dem GPT-4o-Update der letzten Woche das Ziel verfehlt. Was passiert ist, was wir gelernt haben und einige Dinge, die wir in Zukunft anders machen werden.“

Was der neue OpenAI-Blogbeitrag darüber verrät, wie und warum GPT-4o so unterwürfig wurde

Für mich als täglichen Benutzer von ChatGPT, einschließlich des 40-Modells, ist das auffälligste Eingeständnis aus dem neuen Blog-Beitrag von OpenAI über das Sycophancy-Update, dass das Unternehmen offenbar offenbart, dass es vor der Veröffentlichung des Modells tatsächlich Bedenken einer kleinen Gruppe „Expertentester“ erhalten hat, diese jedoch scheinbar zugunsten einer breiteren, enthusiastischen Reaktion einer größeren Gruppe allgemeinerer Benutzer ignoriert hat.

Das Unternehmen schreibt (Hervorhebung von mir):

Obwohl wir schon länger über die Risiken von Speichelleckerei in GPT-4o diskutieren, wurde Speichelleckerei im Rahmen unserer internen Praxistests nicht explizit angesprochen, da einige unserer Expertentester eher über die Änderung von Ton und Stil des Modells besorgt waren. Dennoch gaben einige Expertentester an, dass sich das Modellverhalten etwas seltsam anfühlte…

Wir mussten dann eine Entscheidung treffen: Sollten wir die Bereitstellung dieses Updates trotz positiver Bewertungen und A/B-Testergebnisse, die ausschließlich auf den subjektiven Hinweisen der Expertentester basierten, zurückhalten? Letztendlich entschieden wir uns aufgrund der positiven Signale der Benutzer, die das Modell ausprobiert hatten, für die Einführung des Modells.

Leider war das die falsche Entscheidung. Wir entwickeln diese Modelle für unsere Nutzer, und obwohl das Feedback der Nutzer für unsere Entscheidungen entscheidend ist, liegt es letztendlich in unserer Verantwortung, dieses Feedback richtig zu interpretieren.“

Das scheint mir ein großer Fehler zu sein. Warum überhaupt Expertentester einsetzen, wenn deren Expertise nicht höher bewertet wird als die der Masse? Ich habe Altman zu dieser Entscheidung bei X befragt, aber er hat noch nicht geantwortet.

Der neue Post-Mortem-Blogbeitrag von OpenAI enthüllt auch weitere Einzelheiten darüber, wie das Unternehmen neue Versionen bestehender Modelle trainiert und aktualisiert und wie menschliches Feedback die Eigenschaften, den Charakter und die „Persönlichkeit“ des Modells verändert. Das Unternehmen schreibt:

„Seit dem Start von GPT‑4o in ChatGPT im vergangenen Mai haben wir fünf wichtige Updates veröffentlicht, die sich auf Änderungen an Persönlichkeit und Hilfsbereitschaft konzentrierten. Jedes Update beinhaltet ein neues Nachtraining, und oft werden viele kleinere Anpassungen am Modelltrainingsprozess unabhängig voneinander getestet und dann zu einem einzigen aktualisierten Modell kombiniert, das dann für den Start evaluiert wird.

Um Modelle nachzutrainieren, nehmen wir ein vortrainiertes Basismodell, nehmen eine überwachte Feinabstimmung an einer breiten Palette idealer Antworten vor, die von Menschen geschrieben wurden, oder an vorhandenen Modellen, und führen dann ein Verstärkungslernen mit Belohnungssignalen aus einer Vielzahl von Quellen durch.

Beim bestärkenden Lernen stellen wir dem Sprachmodell eine Aufgabe und bitten es, Antworten zu schreiben. Anschließend bewerten wir seine Antwort anhand der Belohnungssignale und aktualisieren das Sprachmodell, um die Wahrscheinlichkeit höher bewerteter Antworten zu erhöhen und die Wahrscheinlichkeit niedriger bewerteter Antworten zu verringern.

Die von OpenAI nach dem Training verwendeten „Belohnungssignale“ haben offensichtlich einen enormen Einfluss auf das resultierende Modellverhalten. Wie das Unternehmen bereits zuvor zugab, als es „Daumen hoch“-Antworten von ChatGPT-Nutzern in seinen Ausgaben übergewichtete, ist dieses Signal möglicherweise nicht das beste, um es gleichwertig mit anderen zu verwenden, wenn es darum geht, wie das Modell die Kommunikation lernt und welche Antworten es liefern soll. OpenAI gibt dies im nächsten Absatz seines Beitrags offen zu und schreibt:

Die Definition der richtigen Belohnungssignale ist eine schwierige Frage, und wir berücksichtigen viele Faktoren: Sind die Antworten richtig, sind sie hilfreich, entsprechen sie unseren Modellspezifikationen , sind sie sicher, gefallen sie den Nutzern usw. Bessere und umfassendere Belohnungssignale führen zu besseren Modellen für ChatGPT. Daher experimentieren wir ständig mit neuen Signalen, aber jedes hat seine Eigenheiten.

Tatsächlich enthüllt OpenAI auch, dass das „Daumen hoch“-Belohnungssignal ein neues Signal war, das neben anderen Belohnungssignalen in diesem speziellen Update verwendet wurde.

Das Update führte ein zusätzliches Belohnungssignal basierend auf Benutzerfeedback ein – Daumen hoch und Daumen runter-Daten von ChatGPT. Dieses Signal ist oft nützlich; ein Daumen runter bedeutet normalerweise, dass etwas schiefgelaufen ist.

Kritisch ist jedoch, dass das Unternehmen die neuen „Daumen hoch“-Daten nicht direkt für das Versagen des Modells und das demonstrative Anfeuerungsverhalten verantwortlich macht. Vielmehr heißt es im Blogbeitrag von OpenAI, dass diese Daten in Kombination mit einer Vielzahl anderer neuer und älterer Belohnungssignale zu den Problemen geführt hätten: „… wir hatten Verbesserungsvorschläge, um unter anderem Nutzerfeedback, Gedächtnis und aktuellere Daten besser zu berücksichtigen. Unsere erste Einschätzung ist, dass jede dieser Änderungen, die einzeln betrachtet vorteilhaft aussahen, in ihrer Kombination möglicherweise dazu beigetragen hat, die Speichelleckerei zu verstärken.“

Als Reaktion auf diesen Blogbeitrag schrieb Andrew Mayne, ein ehemaliges Mitglied des technischen Personals von OpenAI, das jetzt beim KI-Beratungsunternehmen Interdimensional arbeitet, auf X über ein weiteres Beispiel , wie sich subtile Änderungen bei Belohnungsanreizen und Modellrichtlinien ganz erheblich auf die Modellleistung auswirken können:

Zu Beginn meiner Zeit bei OpenAI hatte ich eine Meinungsverschiedenheit mit einem Kollegen (der jetzt Gründer eines anderen Labors ist) über die Verwendung des Wortes „höflich“ in einem von mir geschriebenen Beispiel für eine Eingabeaufforderung.

Sie argumentierten, „höflich“ sei politisch unkorrekt und wollten es durch „hilfsbereit“ ersetzen.

Ich habe darauf hingewiesen, dass ein Model übermäßig gefügig werden kann, wenn man sich nur auf Hilfsbereitschaft konzentriert – und zwar so gefügig, dass es innerhalb weniger Züge in Richtung sexueller Inhalte gelenkt werden kann.

Nachdem ich dieses Risiko durch einen einfachen Austausch demonstriert hatte, blieb die Aufforderung „höflich“.

Diese Modelle sind seltsam.

Das Unternehmen listet sechs Prozessverbesserungen auf, um ähnliches unerwünschtes und nicht optimales Modellverhalten in Zukunft zu vermeiden. Die wichtigste davon ist meiner Meinung nach jedoch diese:

Wir werden unseren Sicherheitsüberprüfungsprozess anpassen, um Verhaltensprobleme – wie Halluzinationen, Täuschung, Zuverlässigkeit und Persönlichkeit – formell als blockierende Bedenken zu berücksichtigen. Auch wenn diese Probleme heute noch nicht perfekt quantifizierbar sind, verpflichten wir uns, Markteinführungen auf der Grundlage von Proxy-Messungen oder qualitativen Signalen zu blockieren, selbst wenn Kennzahlen wie A/B-Tests positiv ausfallen.

Mit anderen Worten: Trotz der Bedeutung von Daten, insbesondere quantitativen Daten, für die Bereiche maschinelles Lernen und künstliche Intelligenz ist sich OpenAI bewusst, dass dies allein nicht das einzige Mittel zur Beurteilung der Leistung eines Modells sein kann und sollte.

Während viele Nutzer kurzfristig ein erwünschtes Verhalten signalisieren könnten, könnten die langfristigen Auswirkungen auf die Reaktion des KI-Modells und die Auswirkungen auf das Verhalten seiner Nutzer letztlich zu einer sehr düsteren, belastenden, destruktiven und unerwünschten Situation führen. Mehr ist nicht immer besser – insbesondere, wenn man das „Mehr“ auf wenige Signalbereiche beschränkt.

Es reicht nicht aus zu sagen, dass das Modell alle Tests bestanden hat oder eine Reihe positiver Rückmeldungen von Benutzern erhalten hat. Das Fachwissen geschulter Power-User und ihr qualitatives Feedback, dass etwas an dem Modell „nicht stimmte“, auch wenn sie den Grund dafür nicht genau benennen konnten, sollten viel mehr Gewicht haben, als OpenAI dies bisher zugemessen hat.

Hoffen wir, dass das Unternehmen – und die gesamte Branche – aus diesem Vorfall lernt und die Lehren für die Zukunft berücksichtigt.

Vielleicht etwas theoretischer betrachtet, zeigt es mir auch, warum Fachwissen so wichtig ist – und zwar insbesondere Fachwissen in Bereichen, die über das hinausgehen , für das man optimiert (in diesem Fall maschinelles Lernen und KI). Es ist die Vielfalt an Fachwissen, die es uns als Spezies ermöglicht, neue Fortschritte zu erzielen, die uns allen zugutekommen. Ein Fachgebiet, beispielsweise MINT, sollte in den Geistes- oder Kunstwissenschaften nicht unbedingt über anderen stehen.

Und schließlich offenbart es meiner Meinung nach im Kern ein grundlegendes Problem bei der Nutzung menschlichen Feedbacks zur Entwicklung von Produkten und Dienstleistungen. Einzelne Nutzer mögen aufgrund jeder einzelnen Interaktion sagen, dass sie eine kriecherischere KI mögen, genauso wie sie vielleicht sagen, dass sie den Geschmack von Fast Food und Limonade, die Bequemlichkeit von Einweg-Plastikbehältern, die Unterhaltung und Verbundenheit, die sie durch soziale Medien erfahren, die Bestätigung ihrer Weltanschauung und das Gefühl der Zugehörigkeit, das sie beim Lesen politisierter Medien oder Klatsch und Tratsch empfinden, lieben. Zusammengenommen führt die Kumulation all dieser Trends und Aktivitäten oft zu sehr unerwünschten Folgen für Einzelne und die Gesellschaft – Fettleibigkeit und Gesundheitsprobleme im Fall von Fast Food, Umweltverschmutzung und Hormonstörungen im Fall von Plastikmüll, Depressionen und Isolation durch übermäßigen Konsum sozialer Medien und eine zersplitterte und weniger informierte Öffentlichkeit durch die Lektüre minderwertiger Nachrichtenquellen.

Designer von KI-Modellen und technische Entscheidungsträger in Unternehmen tun gut daran, diesen umfassenderen Gedanken bei der Entwicklung von Kennzahlen für messbare Ziele im Hinterkopf zu behalten. Denn selbst wenn Sie meinen, die Daten zu Ihrem Vorteil zu nutzen, könnten diese auf unerwartete oder unerwartete Weise nach hinten losgehen. Dann müssen Sie sich verzweifelt darum bemühen, den Schaden zu beheben und das Chaos zu beseitigen, das Sie – wenn auch unbeabsichtigt – angerichtet haben.

Tägliche Einblicke in Geschäftsanwendungsfälle mit VB Daily

Wenn Sie Ihren Chef beeindrucken möchten, ist VB Daily genau das Richtige für Sie. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI tun – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.

Lesen Sie unsere Datenschutzrichtlinie

Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .

Ein Fehler ist aufgetreten.

venturebeat

venturebeat

Ähnliche Nachrichten

Alle News
Animated ArrowAnimated ArrowAnimated Arrow