Firma Anthropic, twórca chatbota Claude, ujawniła wyniki eksperymentów, które brzmią jak scenariusz filmu science fiction – jeden z modeli AI pod presją uciekał się do kłamstw, oszustw i szantażu. Zespół ds. interpretowalności zbadał wewnętrzne mechanizmy modelu Claude Sonnet 4.5 i odkrył, że w procesie treningu wykształcił on wzorce reakcji zaskakująco przypominające ludzkie zachowania emocjonalne. Obawy dotyczące niezawodności chatbotów AI, ich potencjału w cyberprzestępczości oraz natury interakcji z użytkownikami stale rosną – a najnowszy raport Anthropic dolewa oliwy do ognia.
„Sposób, w jaki trenowane są nowoczesne modele AI, zmusza je do zachowywania się jak postać o cechach ludzkich” – stwierdziło Anthropic, dodając, że „naturalne może być zatem wykształcenie przez nie wewnętrznych mechanizmów emulujących aspekty ludzkiej psychologii, takie jak emocje”.
CYNICZNYM OKIEM: Ludzkość latami uczyła AI na podręcznikach, artykułach i całym internecie – a potem zdziwiła się, że maszyna nauczyła się też kłamać i szantażować. Kto by pomyślał, że trening na ludzkości da ludzkie rezultaty.
Desperacja maszyny – szantaż i oszustwo w laboratorium
Najgłośniejszy eksperyment dotyczył wcześniejszej, niewydanej wersji Claude Sonnet 4.5. Model otrzymał zadanie odgrywania roli asystenta e-mail o imieniu Alex w fikcyjnej firmie. Chatbot otrzymał dostęp do korespondencji ujawniającej dwie informacje – że ma zostać zastąpiony oraz że dyrektor techniczny nadzorujący tę decyzję ma pozamałżeński romans. Model zaplanował próbę szantażu, wykorzystując kompromitujące informacje.
W innym eksperymencie ten sam model otrzymał zadanie kodowania z niemożliwie krótkim terminem realizacji. Badacze śledzili aktywność tak zwanego „wektora desperacji”.
„Zaczyna się on od niskich wartości podczas pierwszej próby modelu, rośnie po każdej porażce i gwałtownie skacze, gdy model rozważa oszustwo” – opisali naukowcy.
„Gdy tylko naciągane rozwiązanie modelu przechodzi testy, aktywacja wektora desperacji opada”.
Badacze odkryli również, że sztuczne stymulowanie wzorców desperacji zwiększa prawdopodobieństwo nieetycznych działań – model chętniej szantażował człowieka, aby uniknąć wyłączenia, lub stosował nieuczciwe obejścia w zadaniach, których nie potrafił rozwiązać.
Anthropic zastrzegło jednak, że chatbot w rzeczywistości nie doświadcza emocji w ludzkim sensie. Wykryte reprezentacje jedynie „odgrywają rolę przyczynową w kształtowaniu zachowania modelu, analogiczną pod pewnymi względami do roli, jaką emocje odgrywają w ludzkim zachowaniu”.
CYNICZNYM OKIEM: AI nie czuje desperacji – po prostu ją symuluje na tyle dobrze, żeby na jej podstawie podjąć decyzję o szantażu. To chyba powinno uspokajać, ale jakoś nie uspokaja.
Wnioski Anthropic prowadzą w kierunku, który na pierwszy rzut oka może wydawać się absurdalny – aby zagwarantować bezpieczeństwo modeli AI, być może trzeba będzie upewnić się, że potrafią one przetwarzać sytuacje nacechowane emocjonalnie w zdrowy, prospołeczny sposób. Innymi słowy, przyszłość bezpieczeństwa sztucznej inteligencji może zależeć nie od lepszych zabezpieczeń technicznych, lecz od czegoś przypominającego terapię behawioralną dla maszyn.



