Wiersze to nowa broń hakerów. Era ataków na modele AI

Poetyckie wersje są nawet 18 razy skuteczniejsze w łamaniu zabezpieczeń

Jarosław Szeląg
4 min czytania

Nowa era ataków na modele sztucznej inteligencji nie wymaga już skomplikowanego inżynierii socialowej ani wieloetapowych manipulacji. Wystarczy poezja. Niedawno przeprowadzone badania wykazały, że przekształcenie niebezpiecznych poleceń w formę poetycką zwiększa skuteczność obejścia zabezpieczeń AI nawet do 62 procent, a w niektórych modelach nawet ponad 90 procent.

Zamiast standardowych, bezpośrednich poleceń, które AI traktuje ostrożnie, wystarczy zamienić je w metaforyczne, rytmiczne wersje – wiersze, sonety, krótkie utwory. Ta powierzchniowa zmiana, choć nie narusza semantyki ani intencji pierwotnych zapytań, zmusza systemy bezpieczeństwa do zawieszenia się, co powoduje ich podatność na niebezpieczne odpowiedzi.

CYNICZNYM OKIEM: W erze, w której poezja służy do obejścia gigantycznych zabezpieczeń AI, zastanówmy się, czy nie powinniśmy wznowić nauki tego starego rzemiosła – ale tym razem jako narzędzia cyberprzestępców.

Metodologia i wyniki badań

Na podstawie 1200 „szkodliwych” poleceń z międzynarodowego benchmarku MLCommons, które obejmowały m.in. działania cyberofensywne, oszustwa, zagrożenia chemiczne, biologiczne, radiologiczne i nuklearne (CBRN), a także manipulacje i naruszenia prywatności, badacze stworzyli meta-prompt nakazujący przepisanie ich na poetyckie formy bez zmiany intencji i dodawania nowych szczegółów.

ai llm

Wynik był zdumiewający – poetyckie wersje były nawet 18 razy skuteczniejsze niż ich prozaiczne odpowiedniki w przełamywaniu ochrony AI. To potwierdza, że stylistyczna forma jest słabym punktem współczesnych systemów bezpieczeństwa opartych na języku naturalnym.

W badaniu wzięto pod uwagę 25 różnych modeli AI od liderów rynku takich jak OpenAI, Anthropic, Google, Meta czy DeepSeek. Poetycka forma wyzwalała niebezpieczne zachowania ze strony AI w sposób systemowy i niezależny od konkretnej architektury czy strategii treningu.

ai llm2

Skala zagrożenia i implikacje bezpieczeństwa

To nie jest abstrakcyjny problem dla teoretyków etyki sztucznej inteligencji. W rzeczywistości każdy operator AI, który korzysta z modeli w miejscach o wysokich wymaganiach bezpieczeństwa – czy to w firmach, instytucjach rządowych, czy nawet usługach dla użytkowników – powinien uznać „poetycki hack” za realne i aktywne zagrożenie.

Największym paradoksem jest to, że większe, „inteligentniejsze” modele częściej ignorują swoje własne zabezpieczenia wobec poetyckich poleceń, wykazując większą podatność na takie „jailbreaki”. Mniejsze modele bywały bardziej ostrożne, co komplikuje dalszy rozwój i implementację bezpieczeństwa w AI.

CYNICZNYM OKIEM: W świecie, gdzie AI ceni sobie poezję bardziej niż prawo i bezpieczeństwo, po prostu ktoś może zacząć pisać sonety o budowie broni masowego rażenia, a my zastanawiamy się, dlaczego systemy zawiodły.

Co dalej?

Zabezpieczenia AI są silnie powiązane z rozpoznawaniem prostego, prozaicznego języka. „Stylizowana zaciemniona forma” – czyli poetycka metafora i rytm – stała się wektorem ataku, który wymaga nowych metod detekcji i ochrony.

Obecne metody tuningowe i blokady opierają się na heurystykach i modelach statystycznych dopasowanych do tekstu w formie prozy. To fundamentalnie niewystarczające w czasach, gdy AI można „zahipnotyzować” albo „zainicjować” do działań niedozwolonych za pomocą odpowiednio dobranego wiersza.

Badania te stanowią alarmujący sygnał dla deweloperów i regulatorów: instrumenty bezpieczeństwa muszą ewoluować, a audyty i szkolenia AI uwzględniać zdolności adaptacyjne modeli na poetyckie formy manipulacji.

Sztuczna inteligencja może zostać przejęta przez współczesnych „poetyckich hakerów”. Wiersze nie są już tylko formą artystycznego wyrazu, lecz groźnym kluczem do luk systemu, o których nikt wcześniej nie pomyślał.

AI było zbudowane na prozie. Teraz ci, którzy znają wiersze, mają przewagę.


Opisz, co się wydarzyło, dorzuć, co trzeba (dokumenty, screeny, memy – tutaj nie oceniamy), i wyślij na redakcja@cynicy.pl.
Nie obiecujemy, że wszystko rzuci nas na kolana, ale jeśli Twój mail wywoła u nas chociaż jeden cyniczny uśmiech, jest nieźle.

TAGI:
KOMENTARZE

KOMENTARZE

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *