W świecie biomedycyny narasta od dawna ten sam problem – oceany danych, a żaglówek do ich przetworzenia coraz mniej. Każde większe badanie generuje dziesiątki milionów wyników dotyczących ekspresji genów, metylacji DNA czy mikrobiomu. Przekształcenie tych surowych informacji w realne przewidywania ryzyka chorób albo powikłań ciążowych wymagało do tej pory zespołów naukowców, miesięcy pracy i jeszcze dłuższych nocy z kodem w Pythonie.
Ale to już przeszłość. Najnowsze badania opublikowane w Cell Reports Medicine pokazują, że sztuczna inteligencja właśnie nauczyła się kodować szybciej i lepiej niż ludzie, przynajmniej w jednym z konkursów biomedycznych. Osiem dużych modeli językowych, tych samych które stoją za systemami typu ChatGPT, zmierzyło się z wynikami setki najlepszych zespołów naukowych z całego świata. Efekt? W kilku przypadkach – pełna dominacja maszyn.
Test, który posłał kod do boju
Badacze z Uniwersytetu Kalifornijskiego w San Francisco i Wayne State University postanowili sprawdzić, czy duży model językowy potrafi napisać działający kod analityczny od zera. Modele otrzymały jedno zadanie: na podstawie opisu danych stworzyć skrypt w R lub Pythonie, który przewidzi np. wiek ciążowy na podstawie ekspresji genów albo oszacuje biologiczny wiek łożyska z metylacji DNA.
W oryginalnych zawodach DREAM Challenge setki ludzkich zespołów poświęcały na to nawet trzy miesiące – pisały, testowały, poprawiały, optymalizowały. AI dostało jedno podejście i kilka minut przetwarzania. Bez wskazówek. Bez poprawek.
Cztery z ośmiu modeli wygenerowały w pełni działający kod. Jeden z nich, OpenAI o3-mini-high, wykonał niemal wszystkie zadania, a w jednym przypadku przebił wynik najlepszego ludzkiego zespołu. Wykorzystując prosty model regresji grzbietowej, przewidział wiek łożyska dokładniej niż ludzie z tytułami profesora.

CYNICZNYM OKIEM: Gdy maszyna uczy się biologii w minutę, a naukowiec traci grant przez Deadlina, pytanie o wartość ludzkiego wysiłku staje się boleśnie dosłowne.
Kod, który nie śpi. Nauka bez ludzi – co zostaje?
To, co w badaniu najbardziej zaskakuje, to wydajność i odporność maszyn na typowe błędy ludzkie. Żaden z modeli nie „przypadkiem” nie włączył danych testowych do treningu – problem, który w środowisku naukowym potrafi pogrzebać cały projekt. LLM stworzyły powtarzalne, dobrze udokumentowane przepływy pracy: wczytanie danych, podział na zbiory, uczenie, walidacja, raportowanie wyników. W skrócie – wszystko, co robi dobry bioinformatyk, tylko błyskawicznie i bez przerw na kawę.
Nie obyło się jednak bez potknięć. Połowa modeli poniosła porażkę z najbardziej przyziemnych powodów – brakujące biblioteki, błędne ścieżki plików, błędy w formacie danych. Okazało się też, że kod w R działał stabilniej niż w Pythonie, co w środowisku naukowym jest niemal herezją. Nawet najlepszy z modeli, uruchamiany kilkukrotnie, dawał nieco inne rozwiązania – technologiczną wersję ludzkiego humoru dnia.

Wynik tej rozgrywki ma znaczenie większe niż pojedyncze zwycięstwo nad grupą badaczy. W obszarach takich jak wczesne wykrywanie ryzyka porodu przedwczesnego, budowa modeli prognostycznych może oznaczać różnicę między życiem a śmiercią dziecka. Dotąd klinicyści poruszali się po omacku, bo nie istniały szybkie narzędzia zdolne analizować setki tysięcy molekularnych parametrów jednocześnie. Teraz sztuczna inteligencja proponuje rozwiązanie, które potrafi wykonać miesiące pracy w kilkadziesiąt sekund.
Z jednej strony – to przełom, który może gwałtownie przyspieszyć postęp medycyny. Z drugiej – rodzi pytanie: czy automatyczne zunifikowanie metod oznacza koniec badawczej kreatywności? Jeśli wszyscy będą korzystać z tych samych algorytmów i promptów, nauka może przestać odkrywać, a jedynie odtwarzać.
CYNICZNYM OKIEM: To ironia XXI wieku – im więcej automatyzujemy myślenie, tym bardziej potrzebujemy filozofów, by przypominali nam, że myśleć warto.
I co dalej?
Modele językowe już teraz generują raporty radiologiczne, analizują obrazy histopatologiczne i streszczają dokumentację pacjentów. Teraz wkraczają w strefę kodu, gdzie AI nie tylko opisuje świat, ale zaczyna go obliczać. To moment graniczny – technologia przestaje być narzędziem pomocniczym, a staje się współautorem badań naukowych.
Oczywiście, twórcy badania podkreślają, że nadzór człowieka pozostaje niezbędny. AI wciąż potrafi „zmyślać”, błędnie odczytywać instrukcje i ignorować niuanse kliniczne. Dochodzą też kwestie kosztów i prywatności danych, które w szpitalnych laboratoriach bywają bardziej skomplikowane niż sam kod.
Ale nawet z wszystkimi ograniczeniami trudno nie zauważyć zmiany. Oto pierwszy realny dowód, że język – ten, z którego zbudowane są modele AI – potrafi sam pisać algorytmy nauki. Jeśli więc ktoś jeszcze zastanawia się, czy AI odbierze ludziom pracę, może sobie odpowiedzieć sam – zaczęło od najtrudniejszej w branży: pracy badacza, który miał rozumieć zbyt wiele, by kiedyś dało się go zastąpić.



