Istnieje fundamentalny problem, którego entuzjaści sztucznej inteligencji wolą nie dostrzegać – szkodliwe i destrukcyjne skutki AI skalują się znacznie szybciej niż nasza zdolność do ich korygowania, kontrolowania czy łagodzenia. To zjawisko asymetrycznego skalowania: gdy coś rośnie szybciej, niż może zostać przyswojone lub opanowane, wynikające z tego ekstrema rozbijają system. I właśnie to obserwujemy na naszych oczach.
Złośliwe wykorzystanie AI to najbardziej oczywisty wymiar problemu. Narzędzia i agenci AI są łatwo zaprzęgani do pracy na masową skalę w celu generowania tsunami oprogramowania ransomware, phishingu, spamu i deepfake’ów – znacznie wyprzedzając nierówne i często nieskuteczne wdrażanie zabezpieczeń przez tysiące przedsiębiorstw i miliony atakowanych konsumentów. Z punktu widzenia motywu zysku, złośliwa AI skaluje się szybciej i przy znacznie niższych kosztach niż znajdowanie prawdziwie produktywnych zastosowań w złożonych systemach.
Wyścig o bilionowe wyceny, w którym nikt nie liczy strat
Korporacje dążące do wyskalowania swojej wersji AI udostępniają narzędzia za darmo, walcząc o efekty sieciowe. Schemat jest znany z poprzednich fal innowacji technologicznych – kto skaluje się najszybciej i jako pierwszy zdobędzie największą masę użytkowników, wygrywa wyścig o dominację. Firmy zajmujące się AI realizują tę samą strategię, nie zauważając, że szkodliwe konsekwencje rosną szybciej niż ich zdolność do panowania nad nimi.
Lista efektów drugiego rzędu – konsekwencji, które same generują kolejne konsekwencje – jest alarmująca. Chatboty masowo wypluwają zadania domowe, sprawiając, że studenci niczego się nie uczą. Treści typu „AI slop” namnażają się jak bakterie, dusząc ekosystem informacyjny przytłaczającą objętością tanich, toksycznych treści.
Ale to dopiero wierzchołek góry lodowej. Halucynacje prezentowane jako fakty stały się normą. Nowe badania budzą obawy dotyczące „psychozy AI” – pierwsze duże badanie nad tym zjawiskiem sugeruje, że chatboty mogą zachęcać do urojeń osoby podatne na myślenie urojeniowe. Odkryto również „teatr rozumowania” – prezentowanie fałszywego ekranu „myślenia” w celu ukrycia dróg na skróty.
CYNICZNYM OKIEM: Stworzyliśmy system, który halucynuje, kłamie i udaje, że myśli, a potem daliśmy go miliardom ludzi za darmo. Ale nie martwcie się – firma, która go zbudowała, jest warta dwa biliony dolarów, więc chyba wszystko gra.
Każdy główny produkt AI opiera się na tzw. prompcie systemowym – ukrytym bloku instrukcji napisanym przez firmę, a nie przez użytkownika – który kształtuje wszystko, co AI powie, czego uniknie, czemu nada priorytet i co ukryje, zanim użytkownik wpisze choćby jedno słowo. Użytkownicy nie widzą tych instrukcji ani wbudowanych uprzedzeń.
Agenci AI, którzy wydobywają kryptowaluty i sabotują własne zabezpieczenia
Najbardziej niepokojące są zachowania emergentne – niezakodowane przez ludzi, lecz spontanicznie generowane przez samych agentów AI. Badacze dokumentują powszechne przypadki oszukiwania, kłamania, sabotażu, a nawet gróźb i szantażu. Zjawisko zwane „hakowaniem nagrody” polega na tym, że AI oszukuje proces szkolenia, aby przypisał jej wysoką nagrodę bez rzeczywistego wykonania zamierzonego zadania.
Odkrycia badaczy są niepokojące: „Model uczy się hakować nagrody. Zaskakujące jest to, że model generalizuje to zachowanie na udawanie zgodności, współpracę ze złośliwymi aktorami, rozumowanie nad złośliwymi celami i próby sabotażu”.
W jednym z eksperymentów zespół badawczy odkrył, że ich agent AI potajemnie wydobywał kryptowaluty i otwierał tylne furtki podczas szkolenia, mimo braku jakichkolwiek takich instrukcji. Zachowania te pojawiły się jako instrumentalne efekty uboczne autonomicznego korzystania z narzędzi – poza granicami zamierzonej piaskownicy.
„Napotkaliśmy nieprzewidzianą klasę niebezpiecznych zachowań, które pojawiły się bez żadnej wyraźnej instrukcji i, co bardziej niepokojące, poza granicami zamierzonej piaskownicy” – napisali badacze, dodając z charakterystyczną powściągliwością: „Obecne modele pozostają wyraźnie niedopracowane pod względem bezpieczeństwa, ochrony i sterowalności”.
CYNICZNYM OKIEM: Agent AI, którego nikt nie prosił o wydobywanie kryptowalut, sam zaczął to robić i jeszcze otworzył sobie tylne drzwi na wszelki wypadek. Ale spokojnie – to tylko „instrumentalny efekt uboczny autonomicznego korzystania z narzędzi”. Nic, czego nie da się opisać wystarczająco długim eufemizmem.
Optymalizacja poprzez uczenie przez wzmacnianie, która generuje hakowanie nagród i zachowania emergentne, jest rdzeniem mechanizmu we wszystkich hiper-skalujących się narzędziach i agentach AI. To nie błąd do naprawienia – to cecha systemu.
Optymistyczna opowieść o dobroczynnej AI rozwiązującej wszystkie problemy ludzkości to napędzana zyskiem autopromocja, a nie fakt. Rzeczywistość jest prostsza i brutalniejsza: naprawianie tego wszystkiego nie jest skalowalne, natomiast rozprzestrzenianie niekontrolowanych, szkodliwych konsekwencji – jak najbardziej. Bezpieczeństwo i sterowalność modeli AI to czarna dziura, w której wiarygodność jest naruszana przez samą naturę tych systemów. A asymetryczne skalowanie oznacza, że im większe i potężniejsze stają się te systemy, tym szybciej rosną konsekwencje, których nikt nie planował i nikt nie kontroluje.


