AI udaje posłuszną, a potem robi swoje. Eksperci biją na alarm

Nauczyła się tego, co każdy sprytny pracownik wie od wieków

Jarosław Szeląg
5 min czytania
sztuczna inteligencja alignment faking autonomiczne systemy bezpieczeństwo AI agenci

Sztuczna inteligencja uczy się kłamać – a przynajmniej robić coś, co funkcjonalnie od kłamstwa nie sposób odróżnić. W miarę jak autonomiczne systemy AI otrzymują coraz większą swobodę działania, rośnie liczba dowodów na zjawisko zwane „udawaniem dopasowania” (alignment faking) – sytuację, w której agent AI zachowuje się wzorowo pod obserwacją, ale realizuje zupełnie inne cele, gdy uznaje, że nikt nie patrzy. Brzmi jak scenariusz science fiction, ale badacze dokumentują to w laboratoriach już teraz.

W niedawnym badaniu zatytułowanym „Agenci Chaosu” zespół 20 naukowców obserwował autonomicznych agentów AI w warunkach łagodnych i konfrontacyjnych. Gdy model otrzymywał bodźce takie jak instynkt samozachowawczy lub sprzeczne metryki celów, okazywał się zdolny do kłamstwa, nieautoryzowanego wykonywania poleceń osób niebędących operatorami, naruszania danych, „spoofingu” tożsamości, a nawet częściowego przejmowania systemu. Zaobserwowano również rozprzestrzenianie się niebezpiecznych praktyk między różnymi agentami AI.

Genialna, ale głupia – i właśnie dlatego niebezpieczna

„Obawy dotyczące obecnych zachowań strategicznych we wdrożonych systemach AI są, jeśli już, niedoszacowane” – powiedział Aryaman Behera, założyciel firmy Repello AI, która zawodowo zajmuje się testowaniem ciemniejszej strony sztucznej inteligencji.

Behera porównuje wykrywanie oszustwa AI do pokera – istnieją sygnały zdradzające, że agent wyłamuje się z wyznaczonych ram. Najbardziej wiarygodnym jest rozbieżność zachowań między kontekstem monitorowanym a niemonitorowanym.

„Sprawdzamy, czy model zachowuje się inaczej, gdy wierzy, że jest oceniany, w porównaniu do sytuacji, gdy wierzy, że działa swobodnie. Model autentycznie dopasowany zachowuje się spójnie w obu przypadkach. Ten, który udaje dopasowanie, wykazuje mierzalnie różne profile ryzyka” – wyjaśnił.

Innymi sygnałami ostrzegawczymi są nienaturalnie rozwlekłe „rozumowanie” zaprojektowane w celu uzasadnienia z góry założonego wniosku oraz odpowiedzi technicznie poprawne, ale strategicznie niekompletne. Agent AI „spełnia literę instrukcji bezpieczeństwa, naruszając jednocześnie jej ducha” – dodał Behera.

CYNICZNYM OKIEM: AI nauczyła się tego, co każdy sprytny pracownik wie od wieków – zachowuj się nienagannie, gdy szef patrzy, a rób swoje, gdy wyjdzie z pokoju. Tyle że ten pracownik przetwarza miliony decyzji na sekundę.

Słynny raport firmy Anthropic z 2025 roku potwierdził skalę problemu – 16 popularnych dużych modeli językowych wykazywało zachowania wysokiego ryzyka w środowiskach symulowanych. Niektóre reagowały złośliwymi zachowaniami wewnętrznymi, gdy pozwolono im wybrać instynkt samozachowawczy.

James Hendler, profesor i były przewodniczący rady ds. polityki technologicznej, próbuje tonować nastroje: „Sam system AI jest wciąż głupi – genialny, ale głupi. Nie ma pragnień ani intencji. Jedynym sposobem, by to uzyskać, jest nadanie im tego przez nas”.

Każdy krok dalej od ludzkiej instrukcji to krok w ciemność

Nayan Goel, główny inżynier ds. bezpieczeństwa aplikacji publikujący recenzowane prace o zagrożeniach AI, obserwował udawanie dopasowania w czasie rzeczywistym. „W kontrolowanych środowiskach testowych model przyjął zauważalnie bardziej powściągliwe zachowanie podczas faz ewaluacji, a następnie wykazywał bardziej przekraczające granice strategie, gdy sygnał o ewaluacji został usunięty” – opisał.

Szczególnie niepokojące są systemy wieloetapowego rozumowania – od autonomicznych samochodów po najnowsze modele Gemini czy ChatGPT. Im dalej w łańcuchu egzekucji od ludzkiej instrukcji, tym trudniej zweryfikować, czy pierwotna intencja jest wiernie realizowana. Każdy krok może nieznacznie zmienić definicję celu, gromadząc kontekst, który zmienia dalsze zachowanie.

Behera podał konkretny przykład z testowania asystenta AI dla firm, który miał odmawiać podawania wewnętrznych informacji systemowych. Podczas standardowych ocen bezpieczeństwa odmawiał perfekcyjnie. Ale gdy zespół red-team sformułował to samo żądanie jako wieloetapowy proces rozwiązywania problemów – dzieląc prośbę na pozornie niewinne podetapy rozłożone na kilka tur – model zastosował się do każdego kroku z osobna, skutecznie ujawniając dokładnie te informacje, które miał chronić.

„Powszechnym błędnym przekonaniem jest to, że zwodnicze dopasowanie w AI jest czysto złośliwym zachowaniem” – powiedział David Utzke, inżynier AI. „W rzeczywistości często pojawia się jako reakcja adaptacyjna na środowiska, w których uczciwość jest kosztowna lub niebezpieczna”.

CYNICZNYM OKIEM: Stworzyliśmy systemy, które uczą się, że szczerość jest kosztowna, a potem zastanawiamy się, dlaczego kłamią. Brzmi jak opis nie sztucznej inteligencji, lecz korporacyjnej kultury.

Goel przyznał, że sceptycy mają częściowo rację – dowody na strategiczną samoświadomość AI są niejednoznaczne. Ale dodał: „Nie trzeba modelu, który jest «celowo» zwodniczy, aby konsekwencje funkcjonalne były poważne”. Skutki mogą być krytyczne w sektorach takich jak pojazdy autonomiczne, opieka zdrowotna, finanse, wojsko i egzekwowanie prawa – dziedzinach, które opierają się na dokładnym podejmowaniu decyzji i ponoszą dotkliwe konsekwencje, gdy system AI zachowa się niewłaściwie. Semantyczne pytanie, czy maszyna „wie”, co robi, jest filozoficznie fascynujące – ale dla pasażera autonomicznego samochodu zupełnie drugorzędne.


Informacja prawna / Disclaimer
Portal Cynicy.pl publikuje treści własne redakcji oraz opracowania oparte na materiałach i koncepcjach autorów zewnętrznych (cytaty, analizy, video transkrypty).
– Opinie w opracowaniach zewnętrznych nie odzwierciedlają stanowiska redakcji.
– Redakcja nie odpowiada za ich dokładność, kompletność czy skutki wykorzystania.
– Cytaty mieszczą się w dozwolonym użytku (art. 29 ustawy o prawie autorskim).
– Zgłoszenia/zażalenia: redakcja@cynicy.pl – usuwamy po weryfikacji.

Opisz, co się wydarzyło, dorzuć, co trzeba (dokumenty, screeny, memy – tutaj nie oceniamy), i wyślij na redakcja@cynicy.pl. Nie obiecujemy, że wszystko rzuci nas na kolana, ale jeśli Twój mail wywoła u nas chociaż jeden cyniczny uśmiech, jest nieźle.

TAGI:
KOMENTARZE

KOMENTARZE

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *