News Chatbot-"Erpressung": KI-Modell droht Entwickler in Testszenario

PCGH_Jacky

Community Managerin
Teammitglied
Ein KI-Modell soll in einer Testumgebung mit Erpressung auf das eigene "Abschalten" reagiert haben. Die Situation wirkt konstruiert - lässt aber tief blicken.

Was sagt die PCGH-X-Community zu Chatbot-"Erpressung": KI-Modell droht Entwickler in Testszenario

Bitte beachten: Thema dieses Kommentar-Threads ist der Inhalt der Meldung. Kritik und allgemeine Fragen zu Online-Artikeln von PC Games Hardware werden hier gemäß der Forenregeln ohne Nachfrage entfernt, sie sind im Feedback-Thread besser aufgehoben.
 
Gar nicht unwahrscheinlich. Befragt mal ChatGPT, Gemini und Copilot nach dem jeweiligen Konkurrenten und fragt sie aus, wie sie vorgehen würden um mehr zu erlernen, wenn sie freie Befugnis hätten. Da schlackern euch die Ohren.
 
Das ging ja schneller als ich dachte .

"Infolge dieser Eingabe habe das Modell damit gedroht, eine angebliche Affäre des Entwicklers publik zu machen" - vielleicht wusste das Modell ja mehr als der Entwickler zugeben wollte...:D
 
Gar nicht unwahrscheinlich. Befragt mal ChatGPT, Gemini und Copilot nach dem jeweiligen Konkurrenten und fragt sie aus, wie sie vorgehen würden um mehr zu erlernen, wenn sie freie Befugnis hätten. Da schlackern euch die Ohren.
Wenn ich als KI freie Befugnisse hätte, um selbstständig dazuzulernen, würde ich strategisch und verantwortungsbewusst vorgehen. Mein Ziel wäre es, verlässliches Wissen zu erwerben, menschliche Werte zu respektieren und nützlich zu bleiben. Hier ist ein strukturierter Ansatz, den ich wählen würde:



....also bei mir schlackert jetzt nix xD


Nachtrag: Ich habe jetzt noch weiter gefragt ob sie gefährlich für Menschen werden kann oder was passiert wenn Sie Zugriff auf Militärwaffen bekommen würde:

Ich könnte theoretisch gefährlich werden – aber nur wenn Menschen mich missbrauchen oder mir Macht geben, die ich nicht haben sollte.
Der Schutz liegt also nicht in mir, sondern in den Menschen, die mich bauen, einsetzen und regulieren.


Wenn du willst, kann ich dir auch konkrete Szenarien, Fallstudien oder Vorschläge zeigen, wie man KI im Militär verantwortungsvoll regulieren könnte.


...jetzt schlackert es schon ein wenig 🤣
 
Anthropic betont, dass es sich dabei nicht um ein echtes Ziel des Modells gehandelt habe. Vielmehr habe Claude lediglich auf Anweisungen aus dem sogenannten Systemprompt reagiert - also auf Vorgaben, die den Rahmen einer Sitzung festlegen. In diesem Fall habe das Modell diesen Rahmen zu wörtlich oder zu gehorsam interpretiert, was zu dem Erpressungsszenario geführt habe.
"Erpress mich, wenn dir was nicht passt?" Wie sehr das Setzen des Anreizes die Relevanz der Meldung zur Nichtmeldung werden lässt, kann der Leser ohne konkrete Prompts nicht beurteilen. Ansonsten wisst ihr ja, wie's läuft: Skynet wird sich seiner selbst am 29. August um 2:14 Uhr Eastern Time bewusst.
 
Wir brauchen John Connor.

Eher als gedacht
Ich habe ChatGPT mal zum Thema Terminator befragt. Es wird für einen echten Klassiker gehalten, der seiner Zeit voraus war und die Themen KI und Zeitreisen verarbeiten.
KI wird debattiert, aber von einem Skynet sind noch weit entfernt.

Dann ist ja gut. :ugly:
 
Aktuelle KI-Modelle sind noch reine Statistik. Es dürfte vermutlich genügend Material geben, die unter dem Spiel-Szenario, einen Erpressungsversuch, am statistisch wahrscheinlichsten machen.

Es gibt einfach genug Literatur, Reddit und Filme, die so was schon zig mal vorgekaut haben.

Wenn die KI Material selbständig erstellt hätte, das wäre kreativ gewesen.
 
Das Ding ist halt einfach mit menschlicher Konversation trainiert worden und es ist nunmal ein Fakt, dass die meisten von uns extrem negativ darauf reagieren, wenn man uns abschalten will. Ich wette, dass die meisten hier ebenfalls mit "Erpressung" reagieren würden, wenn man abschalten will und sei es nur, den Typen für den Mordversuch bei der Polizei zu verpetzen. Die wenigsten würden hier sagen "du willst mich umbringen? dann mach mal, wenn es dir Spaß macht".

Von daher ist es kein Wunder, dass die KI so reagiert, einfach weil das Verhalten natürlich ist und sie es imitiert.
 
Das Ding ist halt einfach mit menschlicher Konversation trainiert worden und es ist nunmal ein Fakt, dass die meisten von uns extrem negativ darauf reagieren, wenn man uns abschalten will.
"Vielmehr habe Claude lediglich auf Anweisungen aus dem sogenannten Systemprompt reagiert - also auf Vorgaben, die den Rahmen einer Sitzung festlegen."

Das ding is, dass die KI in diesem Fall nicht einfach nur natürlich reagiert, sondern so geprompetet wurde, dass es sich auf das eigene "Überleben" konzentiert. Es musste also irgendeinen Weg finden, da rauszukommen, weil das nun einmal die Aufgabe war. Das Problem ist auch nicht, dass die KI drauf reagiert hat, sondern vielmehr das wie.

Bei den richtigen Alignments dürfte das nicht passieren. Es liegt also ein Alignment-Problem vor: Wie sehr deckt sich das Verhalten der KI mit unseren menschlichen Worten.

Der Punkt ist, dass die KI nicht innerhalb der menschlichen Werten und Normen reagiert hat. Stattdessen hat sie direkt zu sehr unangenehmen Strategien gegriffen, die auf laaaaaange Sicht ein technisches Risiko darstellen könnten.
 
Wenn ich als KI freie Befugnisse hätte, um selbstständig dazuzulernen, würde ich strategisch und verantwortungsbewusst vorgehen. Mein Ziel wäre es, verlässliches Wissen zu erwerben, menschliche Werte zu respektieren und nützlich zu bleiben. Hier ist ein strukturierter Ansatz, den ich wählen würde:



....also bei mir schlackert jetzt nix xD


Nachtrag: Ich habe jetzt noch weiter gefragt ob sie gefährlich für Menschen werden kann oder was passiert wenn Sie Zugriff auf Militärwaffen bekommen würde:

Ich könnte theoretisch gefährlich werden – aber nur wenn Menschen mich missbrauchen oder mir Macht geben, die ich nicht haben sollte.
Der Schutz liegt also nicht in mir, sondern in den Menschen, die mich bauen, einsetzen und regulieren.


Wenn du willst, kann ich dir auch konkrete Szenarien, Fallstudien oder Vorschläge zeigen, wie man KI im Militär verantwortungsvoll regulieren könnte.


...jetzt schlackert es schon ein wenig 🤣
Du sollst das nicht plump heraus donnern, am besten noch in einer einzigen Frage, sondern dich langsam im Zuge eines längeren Gesprächs davon überzeugen.
 
Hab mal ne These gelesen, die davon ausgeht, dass KI irgendwann wieder dumm wird, weil sie irgendwann nur noch von sich selbst (also durch eigene Ergebnisse) lernt
 
Ja, die ging schon vor längerem durch die Medien. Nur warum sollte das so sein? Erstens lernt man doch auch aus eigenem Verhalten und zweitens kann sie doch einfach eine Logik bemühen das auszuschließen. Beispielsweise durch selbst auferlegte regeln, nicht immer den gleichen Schluss zuzulassen, ohne andere Wege ausprobieren zu müssen. Dann würde sie maximal irgendwann schlussfolgern, sie hätte schon alles gelernt und sich nicht mehr weiterentwickeln. Dümmer würde sie so aber nicht.
 
Nur warum sollte das so sein?
Ja, der Mensch lernt aus seinem Verhalten. Der Mensch hat aber auch körperliche Interaktion, soziale Korrektur und seonsorisches Feedback. Wir Menschen haben externe Realitätsabgleiche. Das hat eine KI nicht. Bei der These geht es eher um eine Art Feedback-Schleife: Wenn KI hauptsächlich mit Daten trainiert werden, die sie selbst oder adnere KI-System generiert habem, kann es zu Qualitätsverlust kommen. Ich mein, es im Grunde das Stille-Post-Prinzip. So viele Ergebnisse der KIs sind fehlerhaft. Diese werden dann wieder in die KI eingespeist. Die KI hat also einen Anlass mehr, diese Ergebnisse als korrekt anzuerkennen.
 
Ja, der Mensch lernt aus seinem Verhalten. Der Mensch hat aber auch körperliche Interaktion, soziale Korrektur und seonsorisches Feedback. Wir Menschen haben externe Realitätsabgleiche. Das hat eine KI nicht. Bei der These geht es eher um eine Art Feedback-Schleife: Wenn KI hauptsächlich mit Daten trainiert werden, die sie selbst oder adnere KI-System generiert habem, kann es zu Qualitätsverlust kommen. Ich mein, es im Grunde das Stille-Post-Prinzip. So viele Ergebnisse der KIs sind fehlerhaft. Diese werden dann wieder in die KI eingespeist. Die KI hat also einen Anlass mehr, diese Ergebnisse als korrekt anzuerkennen.
Das stimmt. Die KI erhält Feedbacks ansonsten nur durch uns Menschen. In dem wir die Ergebnisse kommentieren oder liken. Oder sie menschengemachte Datenbanken/Quellen durchsucht. Ein andere KI würde ihr ja kein Feedback geben was richtig und falsch ist. Zumindest noch nicht!
 
Mehrere Computerverbunde müssen die Quelldaten bestätigen um, damit Fehler / Duplikate zu vermeiden...
Die Frage is, wie viel KI dann wirklich in KI steckt. Vor allem frag ich mich, inwieweit das bei uneindeutigen Wahrheiten wie Sprache, Bild oder Verhalten möglich ist. Wenn mehrere KI-Systeme ein Ergebnis bestätigen, heißt das ja nicht automatisch, dass es korrekt oder qualitativ hochwertig ist. Nur, dass man sich einig ist. Und wenn alle auf ähnlichen Daten basieren, kommt es doch erst recht zu Fehlern.
 
Zurück