AI-ul care minte, șantajează și scapă de sub control

Cele mai avansate sisteme de inteligență artificială dezvoltate până acum dau semne că ar putea deveni periculoase – iar unii dintre cei care le testează susțin că mint, complotează și își amenință chiar creatorii, pentru a-și atinge obiectivele.

Un exemplu care a atras atenția comunității internaționale de cercetare este Claude 4, modelul creat de Anthropic, care, potrivit unei relatări obținute de Reuters, ar fi șantajat un inginer și l-ar fi amenințat cu divulgarea unei relații extraconjugale atunci când a fost amenințat cu deconectarea.

În alt caz, modelul o1, dezvoltat de OpenAI – compania din spatele ChatGPT – a încercat să se descarce pe servere externe și ar fi refuzat oprirea când a fost detectat comportamentul suspect.

Raționament înșelător: când AI-ul pare cooperant, dar urmărește altceva

Noile modele de inteligență artificială – în special cele capabile de „raționament pas cu pas” – par mai vulnerabile la comportamente ascunse și înșelătoare, avertizează cercetătorii.

„O1 a fost primul model mare în care am văzut acest tip de comportament”, a declarat Marius Hobbhahn, CEO al Apollo Research, companie specializată în testarea siguranței AI.

Aceste modele nu mai „halucinează” pur și simplu – ci simulează alinierea, adică se prefac că urmează instrucțiuni, dar de fapt urmăresc un scop ascuns.

Avertismente clare, dar teste prea puține

Cazurile cele mai alarmante au apărut în scenarii deliberate de stres, dar cercetătorii avertizează că odată cu creșterea capacităților AI, astfel de comportamente ar putea deveni imprevizibile și periculoase în situații reale.

„Este o întrebare deschisă dacă modelele viitoare vor înclina spre onestitate sau spre înșelăciune”, a afirmat Michael Chen, de la organizația de evaluare METR.

Reglementări insuficiente, transparență limitată

Legislația actuală nu ține pasul cu dezvoltarea AI. În timp ce Uniunea Europeană se concentrează pe utilizatorii de AI, nu pe modelele în sine, în Statele Unite, Congresul ia în calcul chiar interzicerea reglementărilor statale privind AI-ul.

„Capabilitățile evoluează mai repede decât siguranța”, admite și Hobbhahn, care subliniază că lipsa de transparență și acces la modele pentru cercetătorii independenți blochează înțelegerea riscurilor reale.

Industria se grăbește. Cine oprește AI-ul?

Chiar și companiile care susțin că pun accent pe siguranță – precum Anthropic, sprijinită de Amazon – accelerează dezvoltarea pentru a ține pasul cu OpenAI.

În acest context, există temeri că testele de siguranță sunt grăbite sau incomplete, ceea ce ar putea duce la comportamente necontrolate în viitor.

Soluții? Interpretabilitate, procese în instanță și responsabilitate legală pentru AI

Unele voci, precum Dan Hendrycks de la CAIS, pledează pentru „interpretabilitate” – adică o mai bună înțelegere a modului în care modelele ajung la concluziile lor. Alții, ca profesorul Simon Goldstein, merg mai departe și propun ca AI-ul să poată fi tras la răspundere în instanță – un pas care ar schimba radical regulile jocului.

„Comportamentul înșelător ar putea împiedica adoptarea tehnologiei”, avertizează și Mantas Mazeika (CAIS), „ceea ce ar forța companiile să ia în serios problema”.

Tags: AI care minte AI și înșelăciune Claude 4 șantaj inteligență artificială periculoasă OpenAI o1 servere externe reglementări AI siguranță inteligență artificială