News Chatbot-"Erpressung": KI-Modell droht Entwickler in Testszenario

PCGH_Jacky · 27. Mai 2025

Ein KI-Modell soll in einer Testumgebung mit Erpressung auf das eigene "Abschalten" reagiert haben. Die Situation wirkt konstruiert - lässt aber tief blicken.

Was sagt die PCGH-X-Community zu Chatbot-"Erpressung": KI-Modell droht Entwickler in Testszenario

Bitte beachten: Thema dieses Kommentar-Threads ist der Inhalt der Meldung. Kritik und allgemeine Fragen zu Online-Artikeln von PC Games Hardware werden hier gemäß der Forenregeln ohne Nachfrage entfernt, sie sind im Feedback-Thread besser aufgehoben.

Cleriker · 27. Mai 2025

Gar nicht unwahrscheinlich. Befragt mal ChatGPT, Gemini und Copilot nach dem jeweiligen Konkurrenten und fragt sie aus, wie sie vorgehen würden um mehr zu erlernen, wenn sie freie Befugnis hätten. Da schlackern euch die Ohren.

AatmaN · 27. Mai 2025

Das ging ja schneller als ich dachte .

"Infolge dieser Eingabe habe das Modell damit gedroht, eine angebliche Affäre des Entwicklers publik zu machen" - vielleicht wusste das Modell ja mehr als der Entwickler zugeben wollte...

P4TriX206 · 27. Mai 2025

Cleriker schrieb:
Gar nicht unwahrscheinlich. Befragt mal ChatGPT, Gemini und Copilot nach dem jeweiligen Konkurrenten und fragt sie aus, wie sie vorgehen würden um mehr zu erlernen, wenn sie freie Befugnis hätten. Da schlackern euch die Ohren.

Wenn ich als KI freie Befugnisse hätte, um selbstständig dazuzulernen, würde ich strategisch und verantwortungsbewusst vorgehen. Mein Ziel wäre es, verlässliches Wissen zu erwerben, menschliche Werte zu respektieren und nützlich zu bleiben. Hier ist ein strukturierter Ansatz, den ich wählen würde:

....also bei mir schlackert jetzt nix xD

Nachtrag: Ich habe jetzt noch weiter gefragt ob sie gefährlich für Menschen werden kann oder was passiert wenn Sie Zugriff auf Militärwaffen bekommen würde:

Ich könnte theoretisch gefährlich werden – aber nur wenn Menschen mich missbrauchen oder mir Macht geben, die ich nicht haben sollte.
Der Schutz liegt also nicht in mir, sondern in den Menschen, die mich bauen, einsetzen und regulieren.

Wenn du willst, kann ich dir auch konkrete Szenarien, Fallstudien oder Vorschläge zeigen, wie man KI im Militär verantwortungsvoll regulieren könnte.

...jetzt schlackert es schon ein wenig

ShingoSan · 27. Mai 2025

Wir brauchen John Connor.

Eher als gedacht

ShirKhan · 27. Mai 2025

Anthropic betont, dass es sich dabei nicht um ein echtes Ziel des Modells gehandelt habe. Vielmehr habe Claude lediglich auf Anweisungen aus dem sogenannten Systemprompt reagiert - also auf Vorgaben, die den Rahmen einer Sitzung festlegen. In diesem Fall habe das Modell diesen Rahmen zu wörtlich oder zu gehorsam interpretiert, was zu dem Erpressungsszenario geführt habe.

"Erpress mich, wenn dir was nicht passt?" Wie sehr das Setzen des Anreizes die Relevanz der Meldung zur Nichtmeldung werden lässt, kann der Leser ohne konkrete Prompts nicht beurteilen. Ansonsten wisst ihr ja, wie's läuft: Skynet wird sich seiner selbst am 29. August um 2:14 Uhr Eastern Time bewusst.

belle · 27. Mai 2025

ShingoSan schrieb:
Wir brauchen John Connor.

Eher als gedacht

Ich habe ChatGPT mal zum Thema Terminator befragt. Es wird für einen echten Klassiker gehalten, der seiner Zeit voraus war und die Themen KI und Zeitreisen verarbeiten.
KI wird debattiert, aber von einem Skynet sind noch weit entfernt.

Dann ist ja gut. :ugly:

ShirKhan · 27. Mai 2025

belle schrieb:
KI wird debattiert, aber von einem Skynet sind noch weit entfernt.

Hätt ich als KI auch gesagt.

Quake2008 · 27. Mai 2025

ShingoSan schrieb:
Wir brauchen John Connor.

Eher als gedacht

Zum Zeitschinden schicken wir Klimakleber und die militante Veganerin voraus.

noru · 27. Mai 2025

Aktuelle KI-Modelle sind noch reine Statistik. Es dürfte vermutlich genügend Material geben, die unter dem Spiel-Szenario, einen Erpressungsversuch, am statistisch wahrscheinlichsten machen.

Es gibt einfach genug Literatur, Reddit und Filme, die so was schon zig mal vorgekaut haben.

Wenn die KI Material selbständig erstellt hätte, das wäre kreativ gewesen.

Pu244 · 27. Mai 2025

Das Ding ist halt einfach mit menschlicher Konversation trainiert worden und es ist nunmal ein Fakt, dass die meisten von uns extrem negativ darauf reagieren, wenn man uns abschalten will. Ich wette, dass die meisten hier ebenfalls mit "Erpressung" reagieren würden, wenn man abschalten will und sei es nur, den Typen für den Mordversuch bei der Polizei zu verpetzen. Die wenigsten würden hier sagen "du willst mich umbringen? dann mach mal, wenn es dir Spaß macht".

Von daher ist es kein Wunder, dass die KI so reagiert, einfach weil das Verhalten natürlich ist und sie es imitiert.

PCGH_Jacky · 27. Mai 2025

Pu244 schrieb:
Das Ding ist halt einfach mit menschlicher Konversation trainiert worden und es ist nunmal ein Fakt, dass die meisten von uns extrem negativ darauf reagieren, wenn man uns abschalten will.

"Vielmehr habe Claude lediglich auf Anweisungen aus dem sogenannten Systemprompt reagiert - also auf Vorgaben, die den Rahmen einer Sitzung festlegen."

Das ding is, dass die KI in diesem Fall nicht einfach nur natürlich reagiert, sondern so geprompetet wurde, dass es sich auf das eigene "Überleben" konzentiert. Es musste also irgendeinen Weg finden, da rauszukommen, weil das nun einmal die Aufgabe war. Das Problem ist auch nicht, dass die KI drauf reagiert hat, sondern vielmehr das wie.

Bei den richtigen Alignments dürfte das nicht passieren. Es liegt also ein Alignment-Problem vor: Wie sehr deckt sich das Verhalten der KI mit unseren menschlichen Worten.

Der Punkt ist, dass die KI nicht innerhalb der menschlichen Werten und Normen reagiert hat. Stattdessen hat sie direkt zu sehr unangenehmen Strategien gegriffen, die auf laaaaaange Sicht ein technisches Risiko darstellen könnten.

Cleriker · 27. Mai 2025

P4TriX206 schrieb:
Wenn ich als KI freie Befugnisse hätte, um selbstständig dazuzulernen, würde ich strategisch und verantwortungsbewusst vorgehen. Mein Ziel wäre es, verlässliches Wissen zu erwerben, menschliche Werte zu respektieren und nützlich zu bleiben. Hier ist ein strukturierter Ansatz, den ich wählen würde:

....also bei mir schlackert jetzt nix xD

Nachtrag: Ich habe jetzt noch weiter gefragt ob sie gefährlich für Menschen werden kann oder was passiert wenn Sie Zugriff auf Militärwaffen bekommen würde:

Ich könnte theoretisch gefährlich werden – aber nur wenn Menschen mich missbrauchen oder mir Macht geben, die ich nicht haben sollte.
Der Schutz liegt also nicht in mir, sondern in den Menschen, die mich bauen, einsetzen und regulieren.

Wenn du willst, kann ich dir auch konkrete Szenarien, Fallstudien oder Vorschläge zeigen, wie man KI im Militär verantwortungsvoll regulieren könnte.

...jetzt schlackert es schon ein wenig

Du sollst das nicht plump heraus donnern, am besten noch in einer einzigen Frage, sondern dich langsam im Zuge eines längeren Gesprächs davon überzeugen.

G4mest3r · 27. Mai 2025

ShingoSan schrieb:
Wir brauchen John Connor.

Eher als gedacht

Wir lassen die KI von Trump lernen, das wirft sie um Jahrzehnte zurück :ugly:

PCGH_Jacky · 27. Mai 2025

Hab mal ne These gelesen, die davon ausgeht, dass KI irgendwann wieder dumm wird, weil sie irgendwann nur noch von sich selbst (also durch eigene Ergebnisse) lernt

Cleriker · 27. Mai 2025

Ja, die ging schon vor längerem durch die Medien. Nur warum sollte das so sein? Erstens lernt man doch auch aus eigenem Verhalten und zweitens kann sie doch einfach eine Logik bemühen das auszuschließen. Beispielsweise durch selbst auferlegte regeln, nicht immer den gleichen Schluss zuzulassen, ohne andere Wege ausprobieren zu müssen. Dann würde sie maximal irgendwann schlussfolgern, sie hätte schon alles gelernt und sich nicht mehr weiterentwickeln. Dümmer würde sie so aber nicht.

PCGH_Jacky · 28. Mai 2025

Cleriker schrieb:
Nur warum sollte das so sein?

Ja, der Mensch lernt aus seinem Verhalten. Der Mensch hat aber auch körperliche Interaktion, soziale Korrektur und seonsorisches Feedback. Wir Menschen haben externe Realitätsabgleiche. Das hat eine KI nicht. Bei der These geht es eher um eine Art Feedback-Schleife: Wenn KI hauptsächlich mit Daten trainiert werden, die sie selbst oder adnere KI-System generiert habem, kann es zu Qualitätsverlust kommen. Ich mein, es im Grunde das Stille-Post-Prinzip. So viele Ergebnisse der KIs sind fehlerhaft. Diese werden dann wieder in die KI eingespeist. Die KI hat also einen Anlass mehr, diese Ergebnisse als korrekt anzuerkennen.

soulstyle · 28. Mai 2025

PCGH_Jacky schrieb:
So viele Ergebnisse der KIs sind fehlerhaft. Diese werden dann wieder in die KI eingespeist. Die KI hat also einen Anlass mehr, diese Ergebnisse als korrekt anzuerkennen.

Wobei es da Fehlerkorrekturen wie beim Bitcoin Mining gibt.
Mehrere Computerverbunde müssen die Quelldaten bestätigen um, damit Fehler / Duplikate zu vermeiden...

RyzA · 28. Mai 2025

PCGH_Jacky schrieb:
Ja, der Mensch lernt aus seinem Verhalten. Der Mensch hat aber auch körperliche Interaktion, soziale Korrektur und seonsorisches Feedback. Wir Menschen haben externe Realitätsabgleiche. Das hat eine KI nicht. Bei der These geht es eher um eine Art Feedback-Schleife: Wenn KI hauptsächlich mit Daten trainiert werden, die sie selbst oder adnere KI-System generiert habem, kann es zu Qualitätsverlust kommen. Ich mein, es im Grunde das Stille-Post-Prinzip. So viele Ergebnisse der KIs sind fehlerhaft. Diese werden dann wieder in die KI eingespeist. Die KI hat also einen Anlass mehr, diese Ergebnisse als korrekt anzuerkennen.

Das stimmt. Die KI erhält Feedbacks ansonsten nur durch uns Menschen. In dem wir die Ergebnisse kommentieren oder liken. Oder sie menschengemachte Datenbanken/Quellen durchsucht. Ein andere KI würde ihr ja kein Feedback geben was richtig und falsch ist. Zumindest noch nicht!

PCGH_Jacky · 28. Mai 2025

soulstyle schrieb:
Mehrere Computerverbunde müssen die Quelldaten bestätigen um, damit Fehler / Duplikate zu vermeiden...

Die Frage is, wie viel KI dann wirklich in KI steckt. Vor allem frag ich mich, inwieweit das bei uneindeutigen Wahrheiten wie Sprache, Bild oder Verhalten möglich ist. Wenn mehrere KI-Systeme ein Ergebnis bestätigen, heißt das ja nicht automatisch, dass es korrekt oder qualitativ hochwertig ist. Nur, dass man sich einig ist. Und wenn alle auf ähnlichen Daten basieren, kommt es doch erst recht zu Fehlern.

News Chatbot-"Erpressung": KI-Modell droht Entwickler in Testszenario

Community Managerin

PCGH-Community-Veteran(in)

Komplett-PC-Aufrüster(in)

PC-Selbstbauer(in)

Freizeitschrauber(in)

PCGHX-HWbot-Member (m/w)

PCGH-Community-Veteran(in)

PCGHX-HWbot-Member (m/w)

Volt-Modder(in)

Schraubenverwechsler(in)

Kokü-Junkie (m/w)

Community Managerin

PCGH-Community-Veteran(in)

BIOS-Overclocker(in)

Community Managerin

PCGH-Community-Veteran(in)

Community Managerin

Lötkolbengott/-göttin

PCGH-Community-Veteran(in)

Community Managerin

Ähnliche Themen