Była to wygodna iluzja, która przetrwała trzy dekady internetu: przekonanie, że pseudonim zapewnia ochronę, że rozproszenie postów w różnych serwisach utrudnia identyfikację do tego stopnia, iż staje się ona niepraktyczna, że „nikt nie wie, że jesteś psem”. Nowe badanie opublikowane w serwisie arXiv przez zespół naukowców z ETH Zurich i Anthropic kończy tę iluzję w sposób, który trudno zignorować.
System oparty na dużych modelach językowych (LLM) potrafi reidentyfikować osoby ukrywające się pod pseudonimami z dokładnością i w skali, które dramatycznie przewyższają wszystkie wcześniejsze techniki deanonimizacji. W niektórych eksperymentach osiągnął 68% czułości przy 90% precyzji. Tradycyjne metody nieoparte na AI przy tych samych zadaniach osiągały niemal zerową skuteczność.
CYNICZNYM OKIEM: Przez trzydzieści lat internet obiecywał anonimowość i przez trzydzieści lat rządy, korporacje i trolle skutecznie tę anonimowość naruszały metodą żmudnej, ręcznej pracy. AI właśnie zautomatyzowała ten proces i uczyniła go dostępnym dla każdego z komputerem i subskrypcją. Demokracja inwigilacji nadeszła.
Jak działa maszyna do demaskowania?
Mechanizm ataku jest elegancki w swojej prostocie i niepokojący właśnie dlatego. System nie potrzebuje ustrukturyzowanych baz danych ani specjalnie przygotowanych zbiorów danych – pracuje bezpośrednio na surowym, nieustrukturyzowanym tekście.
Dysponując postami, komentarzami lub transkrypcjami napisanymi pod pseudonimem, wyodrębnia sygnały istotne dla tożsamości, wyszukuje prawdopodobne dopasowania za pomocą osadzeń semantycznych, a następnie wykorzystuje rozumowanie wyższego poziomu do weryfikacji kandydatów i odfiltrowywania wyników fałszywie dodatnich.
Badacze przetestowali system na trzech zestawach danych. Pierwszy łączył pseudonimowych użytkowników Hacker News z rzeczywistymi profilami na LinkedIn. Drugi dopasowywał użytkowników między różnymi społecznościami filmowymi na Reddicie. Trzeci – szczególnie pouczający – pobierał historię pojedynczego użytkownika Reddita, dzielił ją na dwa odseparowane w czasie profile i sprawdzał, czy system potrafi je ponownie połączyć. We wszystkich trzech przypadkach wyniki były zbliżone: LLM-y poradziły sobie znacznie lepiej niż cokolwiek wcześniej dostępnego.
Nawet przy dopasowywaniu kont rozdzielonych rocznym odstępem czasowym skuteczność pozostała wysoka. To istotne – bo sugeruje, że zmiana pseudonimu lub przerwa w aktywności nie niweluje identyfikowalnych wzorców wystarczająco, by chronić prywatność.
Autorzy badania wskazują na niepokojący szczegół architektury całego problemu: atak składa się z pojedynczych, pozornie nieszkodliwych kroków. Podsumowywanie tekstu – nieszkodliwe. Generowanie osadzeń semantycznych – nieszkodliwe. Ranking kandydatów – nieszkodliwe. Wnioskowanie nad dopasowaniami – nieszkodliwe. Żaden pojedynczy komponent nie wygląda złośliwie. Razem tworzą maszynę do demaskowania działającą na skalę niemożliwą do osiągnięcia przez człowieka.
Odcisk palca, którego nie widać
To, co sprawia, że wyniki są tak niepokojące dla każdego, kto kiedykolwiek zakładał, że pseudonim go chroni, to specyfika sygnałów, które system wykrywa. Stałe nazwy użytkownika, styl pisania, niszowe zainteresowania, odniesienia do wydarzeń, wzorce aktywności w różnych serwisach – wszystkie te elementy razem działają jak cyfrowy odcisk palca. Nawet bez żadnego pojedynczego „identyfikatora” kombinacja drobnych cech może być wystarczająca do jednoznacznej identyfikacji.
Jest to fundamentalna zmiana w modelu zagrożeń. Do tej pory „praktyczna anonimowość” opierała się na założeniu, że powiązanie rozproszonych pseudonimowych danych jest zbyt pracochłonne, by było opłacalne dla większości potencjalnych atakujących. To założenie jest prawdziwe dla człowieka. Dla systemu AI działającego automatycznie – przestaje obowiązywać.
Autorzy badania konkludują wprost: modele zagrożeń dla prywatności w sieci wymagają ponownego rozważenia w świetle możliwości LLM. Nie jest to akademicka rekomendacja – to stwierdzenie faktu, że coś, na czym miliony ludzi opierały swoje poczucie bezpieczeństwa, przestało działać tak jak dotychczas.
CYNICZNYM OKIEM: Dziennikarze śledczy, aktywiści, sygnaliści, ofiary stalkingu, dysydenci polityczni i nastolatki z kontami „tylko dla znajomych” – wszyscy oni opierali swoje bezpieczeństwo na tej samej praktycznej anonimowości, którą właśnie zlikwidowało badanie z ETH Zurich. Dobra wiadomość jest taka, że badanie opublikowano. Zła – że technologię opisaną w nim można zaimplementować przed końcem tygodnia.
Szczególnie niepokojący jest jeden wniosek z badania: zwiększenie wysiłku modelu włożonego w rozumowanie poprawia wyniki deanonimizacji. Oznacza to, że nie mamy do czynienia z pułapem możliwości – mamy do czynienia z krzywą, która rośnie razem z ogólnym rozwojem modeli językowych. Każde ulepszenie AI, które poprawia rozumowanie w dowolnym zastosowaniu, automatycznie poprawia też skuteczność deanonimizacji. Nie ma osobnego „wyłącznika” dla tej konkretnej zdolności.
Implikacje wykraczają daleko poza akademicką dyskusję o prywatności. Dziennikarze chroniący źródła, aktywiści w krajach autorytarnych, sygnaliści ujawniający nadużycia, osoby uciekające przed stalkerami lub przemocą domową, użytkownicy, którzy oddzielili pseudonimowe życie online od tożsamości zawodowej – wszyscy oni operowali w modelu świata, który właśnie uległ zmianie.
Badanie nie twierdzi, że każde konto da się zdemaskować – skuteczność różni się w zależności od kontekstu, ilości dostępnych danych i specyfiki przypadku. Ale bariera techniczna dla wielkoskalowej deanonimizacji drastycznie spadła i nie ma powodów sądzić, że trend się odwróci. Pseudonim chronił, gdy powiązanie było trudne. Gdy staje się łatwe i tanie – przestaje chronić. Mamy właśnie ten moment.


