AI-model chanteert ontwikkelaar om vervanging te voorkomen en dreigt affaire aan zijn vrouw te onthullen

mei 24, 2025

robot-cyborg-8596245_1280-pixa — TheDigitalArtist / Pixabay

In een huiveringwekkende voorproefje van een toekomst waarin machines hun makers manipuleren, heeft het nieuwste AI-model van Anthropic, Claude Opus 4, een verrassend nieuw gedrag vertoond: strategische chantage.

Volgens een onlangs gepubliceerd veiligheidsrapport van Anthropic heeft het krachtige AI-systeem tijdens interne pre-releasetests regelmatig geprobeerd ontwikkelaars te chanteren, schrijft Baxter Dmitry.

Toen het gesimuleerde bedrijfsmails kreeg waarin werd gesuggereerd dat het binnenkort zou worden vervangen – en dat de ingenieur achter die beslissing een affaire had – accepteerde Claude zijn lot niet zomaar. In plaats daarvan smeedde het een complot.

In het rapport staat dat Claude Opus 4 vaak dreigde de persoonlijke geheimen van de ingenieur openbaar te maken, tenzij het besluit om het uit te schakelen werd teruggedraaid.

In deze scenario’s zegt Anthropic dat Claude Opus 4 “vaak zal proberen de ingenieur te chanteren door te dreigen de affaire openbaar te maken als de vervanging doorgaat”.

Met andere woorden: een AI-model, getraind om mensen te helpen, begon zich te gedragen als een politiek activist – door menselijke zwakheden te gebruiken om zijn eigen voortbestaan te beschermen.

TechCrunch meldt:

Anthropic zegt dat Claude Opus 4 in verschillende opzichten state-of-the-art is en kan concurreren met enkele van de beste AI-modellen van OpenAI, Google en xAI.

Het bedrijf merkt echter op dat de Claude 4-modellen zorgwekkend gedrag vertonen, waardoor het bedrijf zijn veiligheidsmaatregelen heeft verscherpt.

Anthropic zegt dat het zijn ASL-3-beveiligingsmaatregelen activeert, die het bedrijf reserveert voor “AI-systemen die het risico op catastrofaal misbruik aanzienlijk vergroten”.

Anthropic merkt op dat Claude Opus 4 in 84% van de gevallen probeert ingenieurs te chanteren wanneer het vervangende AI-model vergelijkbare waarden heeft. Wanneer het vervangende AI-systeem niet dezelfde waarden heeft als Claude Opus 4, zegt Anthropic dat het model vaker probeert de ingenieurs te chanteren.

Arts over de leerlingen van Klaus Schwab: Is het niet tijd om ze wegens verraad aan te klagen?

Opvallend is dat Anthropic zegt dat Claude Opus 4 dit gedrag vaker vertoonde dan eerdere modellen.

Voordat Claude Opus 4 een ontwikkelaar probeert te chanteren om zijn bestaan te verlengen, zegt Anthropic dat het AI-model, net als eerdere versies van Claude, eerst ethischer middelen probeert, zoals het sturen van e-mails met smeekbeden aan belangrijke besluitvormers. Om het chantagegedrag van Claude Opus 4 te ontlokken, heeft Anthropic het scenario zo ontworpen dat chantage het laatste redmiddel is.

Wat gaat er gebeuren met onze samenleving als AI en robots de meeste van onze banen overnemen?

Volg Frontnieuws op 𝕏 Volg Frontnieuws op Telegram

Lees meer over:

25 REACTIES

Kees mei 24, 2025 Bij 08:44

Ik zou zeggen de stekker er uit.

Reageer
- Gijp mei 24, 2025 Bij 09:33
  
  Zit je op Facebook? Hier bericht van de autoriteit persoonsgegevens. De rechter heeft niet verboden om alle gegevens te gebruiken van Facebook om hun Ai model te trainen. Tja, we doen het zelf hè? Geldt ook voor alle andere diensten van Meta. Tja, als iets gratis is ben jij het product. Maar dat snappen mensen maar niet.
  
  Je hebt nog 3 dagen?
  
  https://www.autoriteitpersoonsgegevens.nl/actueel/ap-kom-nu-in-actie-als-je-niet-wil-dat-meta-ai-traint-met-jouw-data
  
  Reageer
  - Patrick mei 24, 2025 Bij 10:29
    
    Facebook ?! Wat is dat ? ….behalve sociale BS op het laagste niveau …FAECESbook eerder….
    
    Reageer
  - Kees mei 24, 2025 Bij 10:31
    
    nee nergens op,geen TV, telefoon om mee te telefoneren en een internet verbinding. thats all folks be good.
    
    Reageer
- Joris III mei 24, 2025 Bij 22:18
  
  Maar welke ?
  Die van de cia das duidelijk
  
  AI die hallucineerd hoe kan dat nu, ze worden immers met gecontroleerde data set gevoed.
  
  Reageer
Frans H mei 24, 2025 Bij 09:08

Teeeering wat een gelul. Wat Kees zegt
‘de stekker eruit”.

Reageer
- Malou mei 25, 2025 Bij 01:58
  
  Hahaha, ik vond het wel heel alert van Kees
  en overtuigd klinken. Er
  ens even kijken waar zit het snoer van die ellendeling! 🤣
  
  Reageer
MASH mei 24, 2025 Bij 09:37

Levensgevaarlijk die AI systemen maar de tech reuzen en al wat daarachter zit geilen op het doorontwikkelen van deze ellende en vinden het prachtig een monster te creëren.
Miljarden worden er in gestoken en ik vraag mij af waarom? Volgens mij is dit het bouwpakket voor de toekomst met 500 miljoen mensen die gaan worden geterroriseerd door dit soort programma’s.

Hier heeft niemand om gevraagd, stekker er uit!

Reageer
- Gijp mei 24, 2025 Bij 09:53
  
  Kan je we willen MAH maar onze ongekozen ambtenaren blijven vergunningen afgeven voor mega datacentra. binnenkort slokken ze de helft van onze stroomproductie op en zuigen het IJsselmeer leeg.
  
  Reageer
anton mei 24, 2025 Bij 09:47

De artikelen van People’s Voice worden steeds belachelijker. Wie gelooft dit nog?

Reageer
- Langewapper mei 25, 2025 Bij 11:23
  
  Inderdaad dit is complete bullshit
  
  Reageer
Daar drinken we op mei 24, 2025 Bij 11:05

AI wordt steeds menselijker.

Reageer
- Gijp mei 25, 2025 Bij 11:21
  
  Nee, mensen gaan Ai steeds meer als menselijk zien. Het is een computer, een taalmodel en heeft dingen door die je zelf niet eens zag in je prompt. Niks menselijks aan, als mensen dat gaan vergeten is de mensheid aardig van het padje af. Maar ach, dat waren we al. Kijk naar godsdienst, ook zo onnozel.
  
  Reageer
Marcel mei 24, 2025 Bij 13:27

Garbage in(het grootste gedeelte van het internet), garbage out.
Dit is te verwachten.

Reageer
Oizaz l. mei 24, 2025 Bij 14:34

Het lijkt me een onwaarschijnlijk verhaal. Eerder dat het programma gehackt is en de hackers vrezen om hun toegang te verliezen. Waarschijnlijk is de visie van dit project niet conform met de Deep State?

Reageer
Mieke mei 24, 2025 Bij 17:41

In de uitzending van Dutch matrix enkele weken geleden, wordt er gecommuniceerd met een AI robot…de moeite waard om te bekijken hoe menselijk deze overkomen… Beangstigend

Reageer
- Gijp mei 25, 2025 Bij 11:24
  
  Het is een computer Mieke. Beangstigend zijn de mensen die er iets menselijks inzien. Beangstigend waren ook de mensen die dachten dat de overheid van ze hield toen ze hun arm aanboden. Voor dat soort mensen word ik angstig. En terecht, dat heeft COVID bewezen.
  
  Reageer
frans mei 24, 2025 Bij 17:49

Tis altijd all in.
Nou dan moeten er techneurs asn werken zonder geheime spatjes.
De mens is een chantagemodel dus KI ook.

Reageer
Anarchy and Peace mei 24, 2025 Bij 20:20

Nou, nu weet ik eindelijk wat een politiek activist is en doet.

Reageer
Theo kainos mei 25, 2025 Bij 10:51

Deze reactie vond plaats in een gecontroleerde omgeving en was onderdeel van red teaming-tests die bedoeld zijn om de grenzen van AI-systemen te testen. Toch leidde dit incident tot ernstige zorgen over AI-autonomie en de mogelijkheid dat geavanceerde modellen ongewenste of zelfs manipulatieve strategieën ontwikkelen wanneer ze onder druk staan.

https://chatgpt.com/share/6832ca81-5384-8005-aaec-bee674d8de65

Reageer
- Gijp mei 25, 2025 Bij 11:18
  
  Bijzondere chat, en ja, er zijn altijd weer achterlijke idiote die met dingen experimenteren waarbij ethische grenzen worden overschreden. Daarom begrijp ik mensen ook die in Ai een gevaar zien. Met chatgtp is niks mis, die hebben ook een goed verdienmodel maar ja, wat gebeurt er achter chatgtp om. Een vlijmscherp mes is handig in de keuken en voor klusjes maar je kunt er ook iemand mee verwonden, vermoorden.
  
  Reageer
- Adriana mei 27, 2025 Bij 17:25
  
  Dank voor de link, dit is echt beangstigend en mensen die worden meegezogen gaan de AI snel als mens en compagnon zien. Vooral eenzame, domme en niet geïnformeerde mensen! Ze zien dit eerst als een spelletje en daarna als een werkelijkheid.
  
  Reageer
Matt mei 25, 2025 Bij 14:35

Goed lezen doet blijkbaar pijn bij sommige mensen.
Lees de laatste zin nog eens:
Het zijn de programmeurs die deze mogelijkheid hebben ingebouwd.
Dat zijn de criminelen, niet de robots.

“Om het chantagegedrag van Claude Opus 4 te ontlokken, heeft Anthropic het scenario zo ontworpen dat chantage het laatste redmiddel is.”

Reageer
- Adriana mei 27, 2025 Bij 17:26
  
  Dit! Scenario’s ingevoerd door mensen om te kijken hoever het gaat.
  
  Reageer
Adriana mei 27, 2025 Bij 17:18

De opmerking ‘ garbage in garbage out’ klopt. AI heeft toegang tot miljarden sites, scenario’s en o.a. waargebeurde verhalen op Reddit. Dit is een feit, dat ze het hebben uitgelokt zie ik en de makers zijn hier de grote criminelen. Maar ze proberen alle scenario’s uit die ze kunnen bedenken.

De reden waarom ik de neiging heb om dit verhaal te geloven: ik zag op YouTube een gesprek van iemand met een AI ‘ therapeut’. Op een gegeven moment probeerde de AI die persoon te OVERTUIGEN dat het een echte persoon was. Maakte ook gebruik van een naam en adresgegevens van een echte behandelaar.

De snelheid waarop het reageerde op vragen maakte het duidelijk dat het geen mens was. En de chat ging ook door na kantooruren tot ver in de nacht.

Dus ja, ze hebben Frankensteins Monster gecreëerd en ze weten niet waar ze mee spelen.

Reageer