ChatGPT obchodzi 3. urodziny – rewolucja czy fabryka halucynacji?

50% odpowiedzi Gemini, Copilot i Perplexity nadal zawiera błędy

Jarosław Szeląg
3 min czytania

30 listopada 2022 roku ChatGPT oficjalnie wystartował, wprowadzając duże modele językowe (LLM) do mainstreamu – punkt zwrotny, który zrewolucjonizował przetwarzanie zapytań, podsumowywanie danych i kodowanie. Po trzech latach postępy są spektakularne: chatboty radzą sobie z złożonymi zadaniami lepiej niż kiedykolwiek. Ale czy to wystarczy, by nazwać je niezawodnymi? 

Nowe badanie Europejskiej Unii Nadawców i BBC pokazuje, że prawie połowa odpowiedzi (48 procent) z darmowych wersji ChatGPT, Gemini, Copilot i Perplexity nadal zawiera błędy dokładności – dane z maja-czerwca 2025 roku.

Tristan Gaudiat ze Statista podkreśla, że halucynacje, błędna interpretacja kontekstu i niedokładności dręczą nawet topowe modele. W grudniu 2024 roku wskaźnik niedokładnych odpowiedzi wynosił aż 72 procent (na mniejszej próbce), z 31 procent poważnych błędów – głównie brak źródeł i kontekstu. Dziś jest lepiej, ale 17 procent odpowiedzi to znaczące problemy, co stawia pod znakiem zapytania ich użyteczność w krytycznych dziedzinach.

Spadek błędów, ale pułapki czają się wszędzie

Badanie analizowało popularne chatboty i wykazało spore ulepszenia: z 72 do 48 procent niedokładności w pół roku. Poważne błędy spadły z 31 do 17 procent, co brzmi optymistycznie – modele uczą się unikać totalnych wpadek. Jednak w aplikacjach wysokiego ryzyka, jak opieka zdrowotna, porady prawne czy edukacja, nawet 17 procent to za dużo – jedna halucynacja może kosztować życie, sprawę sądową lub fałszywą wiedzę.

Halucynacje to nie drobiazg: chatboty wymyślają fakty, gubią kontekst, podają nieistniejące źródła. Deweloperzy popychają granice, ale użytkownicy muszą pamiętać o ograniczeniach – AI to potężne narzędzie, lecz nie wyrocznia.

ai (1)

CYNICZNYM OKIEM: Trzy lata po debiucie ChatGPT wciąż bredzi w 48 procentach przypadków – jak pijany profesor, który czasem trafi w sedno, ale równie często zmyśla bibliografię z równoległego wszechświata.

Progres tak, ale z gwiazdką – co dalej z LLM?

Od 2022 roku modele ewoluowały: lepiej kodują, podsumowują, rozumieją niuanse. Wskaźnik błędów spadł od końca 2024 roku, co pokazuje realny postęp inżynieryjny. Mimo to badanie BBC-EDRIX budzi pytania: czy deweloperzy dogonią halucynacje, zanim AI zawiedzie w kluczowym momencie?

Użytkownicy muszą pozostać czujni – weryfikuj źródła, kontekst, fakty. Chatboty to asystenci, nie bogowie.

CYNICZNYM OKIEM: AI po trzech latach: z geniusza-wymyślacza do… tylko trochę mniej halucynującego kompana – idealne na kawę, ale nie na salę sądową czy receptę.

Chatboty AI to triumf technologii, lecz z 48-procentowym bagażem błędów – zaskakujące, jak daleko zaszły, i szokujące, ile jeszcze przed nimi drogi do prawdy.


Opisz, co się wydarzyło, dorzuć, co trzeba (dokumenty, screeny, memy – tutaj nie oceniamy), i wyślij na redakcja@cynicy.pl.
Nie obiecujemy, że wszystko rzuci nas na kolana, ale jeśli Twój mail wywoła u nas chociaż jeden cyniczny uśmiech, jest nieźle.

TAGI:
KOMENTARZE

KOMENTARZE

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *