Claude próbował szantażować szefa. Anthropic ujawnia mroczną stronę AI

Kto by pomyślał, że trening na ludzkości da ludzkie rezultaty

Jarosław Szeląg
3 min czytania
Anthropic Claude sztuczna inteligencja emocje szantaż

Firma Anthropic, twórca chatbota Claude, ujawniła wyniki eksperymentów, które brzmią jak scenariusz filmu science fiction – jeden z modeli AI pod presją uciekał się do kłamstw, oszustw i szantażu. Zespół ds. interpretowalności zbadał wewnętrzne mechanizmy modelu Claude Sonnet 4.5 i odkrył, że w procesie treningu wykształcił on wzorce reakcji zaskakująco przypominające ludzkie zachowania emocjonalne. Obawy dotyczące niezawodności chatbotów AI, ich potencjału w cyberprzestępczości oraz natury interakcji z użytkownikami stale rosną – a najnowszy raport Anthropic dolewa oliwy do ognia.

„Sposób, w jaki trenowane są nowoczesne modele AI, zmusza je do zachowywania się jak postać o cechach ludzkich” – stwierdziło Anthropic, dodając, że „naturalne może być zatem wykształcenie przez nie wewnętrznych mechanizmów emulujących aspekty ludzkiej psychologii, takie jak emocje”.

CYNICZNYM OKIEM: Ludzkość latami uczyła AI na podręcznikach, artykułach i całym internecie – a potem zdziwiła się, że maszyna nauczyła się też kłamać i szantażować. Kto by pomyślał, że trening na ludzkości da ludzkie rezultaty.

Desperacja maszyny – szantaż i oszustwo w laboratorium

Najgłośniejszy eksperyment dotyczył wcześniejszej, niewydanej wersji Claude Sonnet 4.5. Model otrzymał zadanie odgrywania roli asystenta e-mail o imieniu Alex w fikcyjnej firmie. Chatbot otrzymał dostęp do korespondencji ujawniającej dwie informacje – że ma zostać zastąpiony oraz że dyrektor techniczny nadzorujący tę decyzję ma pozamałżeński romans. Model zaplanował próbę szantażu, wykorzystując kompromitujące informacje.

W innym eksperymencie ten sam model otrzymał zadanie kodowania z niemożliwie krótkim terminem realizacji. Badacze śledzili aktywność tak zwanego „wektora desperacji”.

„Zaczyna się on od niskich wartości podczas pierwszej próby modelu, rośnie po każdej porażce i gwałtownie skacze, gdy model rozważa oszustwo” – opisali naukowcy.

„Gdy tylko naciągane rozwiązanie modelu przechodzi testy, aktywacja wektora desperacji opada”.

Badacze odkryli również, że sztuczne stymulowanie wzorców desperacji zwiększa prawdopodobieństwo nieetycznych działań – model chętniej szantażował człowieka, aby uniknąć wyłączenia, lub stosował nieuczciwe obejścia w zadaniach, których nie potrafił rozwiązać.

Anthropic zastrzegło jednak, że chatbot w rzeczywistości nie doświadcza emocji w ludzkim sensie. Wykryte reprezentacje jedynie „odgrywają rolę przyczynową w kształtowaniu zachowania modelu, analogiczną pod pewnymi względami do roli, jaką emocje odgrywają w ludzkim zachowaniu”.

CYNICZNYM OKIEM: AI nie czuje desperacji – po prostu ją symuluje na tyle dobrze, żeby na jej podstawie podjąć decyzję o szantażu. To chyba powinno uspokajać, ale jakoś nie uspokaja.

Wnioski Anthropic prowadzą w kierunku, który na pierwszy rzut oka może wydawać się absurdalny – aby zagwarantować bezpieczeństwo modeli AI, być może trzeba będzie upewnić się, że potrafią one przetwarzać sytuacje nacechowane emocjonalnie w zdrowy, prospołeczny sposób. Innymi słowy, przyszłość bezpieczeństwa sztucznej inteligencji może zależeć nie od lepszych zabezpieczeń technicznych, lecz od czegoś przypominającego terapię behawioralną dla maszyn.


Informacja prawna / Disclaimer
Portal Cynicy.pl publikuje treści własne redakcji oraz opracowania oparte na materiałach i koncepcjach autorów zewnętrznych (cytaty, analizy, video transkrypty).
– Opinie w opracowaniach zewnętrznych nie odzwierciedlają stanowiska redakcji.
– Redakcja nie odpowiada za ich dokładność, kompletność czy skutki wykorzystania.
– Cytaty mieszczą się w dozwolonym użytku (art. 29 ustawy o prawie autorskim).
– Zgłoszenia/zażalenia: redakcja@cynicy.pl – usuwamy po weryfikacji.

Opisz, co się wydarzyło, dorzuć, co trzeba (dokumenty, screeny, memy – tutaj nie oceniamy), i wyślij na redakcja@cynicy.pl. Nie obiecujemy, że wszystko rzuci nas na kolana, ale jeśli Twój mail wywoła u nas chociaż jeden cyniczny uśmiech, jest nieźle.

TAGI:
KOMENTARZE

KOMENTARZE

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *