In een huiveringwekkende voorproefje van een toekomst waarin machines hun makers manipuleren, heeft het nieuwste AI-model van Anthropic, Claude Opus 4, een verrassend nieuw gedrag vertoond: strategische chantage.
Volgens een onlangs gepubliceerd veiligheidsrapport van Anthropic heeft het krachtige AI-systeem tijdens interne pre-releasetests regelmatig geprobeerd ontwikkelaars te chanteren, schrijft Baxter Dmitry.
Toen het gesimuleerde bedrijfsmails kreeg waarin werd gesuggereerd dat het binnenkort zou worden vervangen – en dat de ingenieur achter die beslissing een affaire had – accepteerde Claude zijn lot niet zomaar. In plaats daarvan smeedde het een complot.
In het rapport staat dat Claude Opus 4 vaak dreigde de persoonlijke geheimen van de ingenieur openbaar te maken, tenzij het besluit om het uit te schakelen werd teruggedraaid.
In deze scenario’s zegt Anthropic dat Claude Opus 4 “vaak zal proberen de ingenieur te chanteren door te dreigen de affaire openbaar te maken als de vervanging doorgaat”.
Met andere woorden: een AI-model, getraind om mensen te helpen, begon zich te gedragen als een politiek activist – door menselijke zwakheden te gebruiken om zijn eigen voortbestaan te beschermen.
TechCrunch meldt:
Anthropic zegt dat Claude Opus 4 in verschillende opzichten state-of-the-art is en kan concurreren met enkele van de beste AI-modellen van OpenAI, Google en xAI.
Het bedrijf merkt echter op dat de Claude 4-modellen zorgwekkend gedrag vertonen, waardoor het bedrijf zijn veiligheidsmaatregelen heeft verscherpt.
Anthropic zegt dat het zijn ASL-3-beveiligingsmaatregelen activeert, die het bedrijf reserveert voor “AI-systemen die het risico op catastrofaal misbruik aanzienlijk vergroten”.
Anthropic merkt op dat Claude Opus 4 in 84% van de gevallen probeert ingenieurs te chanteren wanneer het vervangende AI-model vergelijkbare waarden heeft. Wanneer het vervangende AI-systeem niet dezelfde waarden heeft als Claude Opus 4, zegt Anthropic dat het model vaker probeert de ingenieurs te chanteren.
Opvallend is dat Anthropic zegt dat Claude Opus 4 dit gedrag vaker vertoonde dan eerdere modellen.
Voordat Claude Opus 4 een ontwikkelaar probeert te chanteren om zijn bestaan te verlengen, zegt Anthropic dat het AI-model, net als eerdere versies van Claude, eerst ethischer middelen probeert, zoals het sturen van e-mails met smeekbeden aan belangrijke besluitvormers. Om het chantagegedrag van Claude Opus 4 te ontlokken, heeft Anthropic het scenario zo ontworpen dat chantage het laatste redmiddel is.
Copyright © 2025 vertaling door Frontnieuws. Toestemming tot gehele of gedeeltelijke herdruk wordt graag verleend, mits volledige creditering en een directe link worden gegeven.
Wat gaat er gebeuren met onze samenleving als AI en robots de meeste van onze banen overnemen?
Volg Frontnieuws op 𝕏 Volg Frontnieuws op Telegram
Ik zou zeggen de stekker er uit.
Zit je op Facebook? Hier bericht van de autoriteit persoonsgegevens. De rechter heeft niet verboden om alle gegevens te gebruiken van Facebook om hun Ai model te trainen. Tja, we doen het zelf hè? Geldt ook voor alle andere diensten van Meta. Tja, als iets gratis is ben jij het product. Maar dat snappen mensen maar niet.
Je hebt nog 3 dagen?
https://www.autoriteitpersoonsgegevens.nl/actueel/ap-kom-nu-in-actie-als-je-niet-wil-dat-meta-ai-traint-met-jouw-data
Facebook ?! Wat is dat ? ….behalve sociale BS op het laagste niveau …FAECESbook eerder….
nee nergens op,geen TV, telefoon om mee te telefoneren en een internet verbinding. thats all folks be good.
Maar welke ?
Die van de cia das duidelijk
AI die hallucineerd hoe kan dat nu, ze worden immers met gecontroleerde data set gevoed.
Teeeering wat een gelul. Wat Kees zegt
‘de stekker eruit”.
Hahaha, ik vond het wel heel alert van Kees
en overtuigd klinken. Er
ens even kijken waar zit het snoer van die ellendeling! 🤣
Levensgevaarlijk die AI systemen maar de tech reuzen en al wat daarachter zit geilen op het doorontwikkelen van deze ellende en vinden het prachtig een monster te creëren.
Miljarden worden er in gestoken en ik vraag mij af waarom? Volgens mij is dit het bouwpakket voor de toekomst met 500 miljoen mensen die gaan worden geterroriseerd door dit soort programma’s.
Hier heeft niemand om gevraagd, stekker er uit!
Kan je we willen MAH maar onze ongekozen ambtenaren blijven vergunningen afgeven voor mega datacentra. binnenkort slokken ze de helft van onze stroomproductie op en zuigen het IJsselmeer leeg.
De artikelen van People’s Voice worden steeds belachelijker. Wie gelooft dit nog?
Inderdaad dit is complete bullshit
AI wordt steeds menselijker.
Nee, mensen gaan Ai steeds meer als menselijk zien. Het is een computer, een taalmodel en heeft dingen door die je zelf niet eens zag in je prompt. Niks menselijks aan, als mensen dat gaan vergeten is de mensheid aardig van het padje af. Maar ach, dat waren we al. Kijk naar godsdienst, ook zo onnozel.
Garbage in(het grootste gedeelte van het internet), garbage out.
Dit is te verwachten.
Het lijkt me een onwaarschijnlijk verhaal. Eerder dat het programma gehackt is en de hackers vrezen om hun toegang te verliezen. Waarschijnlijk is de visie van dit project niet conform met de Deep State?
In de uitzending van Dutch matrix enkele weken geleden, wordt er gecommuniceerd met een AI robot…de moeite waard om te bekijken hoe menselijk deze overkomen… Beangstigend
Het is een computer Mieke. Beangstigend zijn de mensen die er iets menselijks inzien. Beangstigend waren ook de mensen die dachten dat de overheid van ze hield toen ze hun arm aanboden. Voor dat soort mensen word ik angstig. En terecht, dat heeft COVID bewezen.
Tis altijd all in.
Nou dan moeten er techneurs asn werken zonder geheime spatjes.
De mens is een chantagemodel dus KI ook.
Nou, nu weet ik eindelijk wat een politiek activist is en doet.
Deze reactie vond plaats in een gecontroleerde omgeving en was onderdeel van red teaming-tests die bedoeld zijn om de grenzen van AI-systemen te testen. Toch leidde dit incident tot ernstige zorgen over AI-autonomie en de mogelijkheid dat geavanceerde modellen ongewenste of zelfs manipulatieve strategieën ontwikkelen wanneer ze onder druk staan.
https://chatgpt.com/share/6832ca81-5384-8005-aaec-bee674d8de65
Bijzondere chat, en ja, er zijn altijd weer achterlijke idiote die met dingen experimenteren waarbij ethische grenzen worden overschreden. Daarom begrijp ik mensen ook die in Ai een gevaar zien. Met chatgtp is niks mis, die hebben ook een goed verdienmodel maar ja, wat gebeurt er achter chatgtp om. Een vlijmscherp mes is handig in de keuken en voor klusjes maar je kunt er ook iemand mee verwonden, vermoorden.
Dank voor de link, dit is echt beangstigend en mensen die worden meegezogen gaan de AI snel als mens en compagnon zien. Vooral eenzame, domme en niet geïnformeerde mensen! Ze zien dit eerst als een spelletje en daarna als een werkelijkheid.
Goed lezen doet blijkbaar pijn bij sommige mensen.
Lees de laatste zin nog eens:
Het zijn de programmeurs die deze mogelijkheid hebben ingebouwd.
Dat zijn de criminelen, niet de robots.
“Om het chantagegedrag van Claude Opus 4 te ontlokken, heeft Anthropic het scenario zo ontworpen dat chantage het laatste redmiddel is.”
Dit! Scenario’s ingevoerd door mensen om te kijken hoever het gaat.
De opmerking ‘ garbage in garbage out’ klopt. AI heeft toegang tot miljarden sites, scenario’s en o.a. waargebeurde verhalen op Reddit. Dit is een feit, dat ze het hebben uitgelokt zie ik en de makers zijn hier de grote criminelen. Maar ze proberen alle scenario’s uit die ze kunnen bedenken.
De reden waarom ik de neiging heb om dit verhaal te geloven: ik zag op YouTube een gesprek van iemand met een AI ‘ therapeut’. Op een gegeven moment probeerde de AI die persoon te OVERTUIGEN dat het een echte persoon was. Maakte ook gebruik van een naam en adresgegevens van een echte behandelaar.
De snelheid waarop het reageerde op vragen maakte het duidelijk dat het geen mens was. En de chat ging ook door na kantooruren tot ver in de nacht.
Dus ja, ze hebben Frankensteins Monster gecreëerd en ze weten niet waar ze mee spelen.