ChatGPT niemal zdaje lekarski egzamin końcowy


Steven Novella 2023-02-21


Pojawienie się kilku aplikacji sztucznej inteligencji (AI) do użytku publicznego, takich jak Dalle-2, Midjourney i ChatGPT, sprawiło, że sztuczna inteligencja stała się jednym z największych newsów naukowych minionego roku. Sam obszernie o tym pisałem i intensywnie korzystałem z tych aplikacji, aby zorientować się, co mogą, a czego nie mogą zrobić. Możliwości tych systemów zmieniają się jednak szybko.

Ostatnio pisałem o potencjale aplikacji podobnej do ChatGPT jako systemu eksperckiego wspomagającego praktykę lekarską. Już jest aktualizacja warta nowego postu (również ta została opublikowana na SBM). Jeśli chodzi o tło, ChatGPT to duży model językowy, zasadniczo potężny chatbot, który jest w stanie generować odpowiedzi w języku naturalnym, które są spójne w odpowiedziach na słowa użytkownika. Zadaj mu pytanie lub daj mu zadanie, a wypluje całkiem przyzwoitą odpowiedź. Jest szkolony na danych z Internetu do 2021 roku. Aplikacja denerwuje wielu nauczycieli, ponieważ tworzy dobre eseje, przynajmniej na poziomie szkoły średniej. Nie sądzę, aby ostatecznie stanowiło to problem, ale zmusi nauczycieli do ponownego przemyślenia zadań opartych na esejach.

 

Jako wyznacznik rzeczywistego potencjału tych aplikacji AI, Microsoft podobno zainwestował miliardy dolarów w ChatGPT i włącza go do swojej wyszukiwarki Bing. Google odpowiedziało na to swoją własną aplikacją, Bard, która ma wyboisty początek, ale poczekajmy z oceną. Następna wersja ChatGPT, wersja 4, pojawi się wkrótce i obiecuje, że będzie jeszcze potężniejsza i aktualna. Konkluzja – spodziewaj się, że zobaczysz to oprogramowanie wszędzie, w tle naszego doświadczenia komputerowego. W rzeczywistości ChatGPT będzie pisać to oprogramowanie.

 

Zawsze jednak pozostaje pytanie, w jaki sposób społeczeństwo będzie wchodzić w interakcję z nową technologią i jak ludzie będą się z nią czuć. Kiedy już przejdziemy przez etap nowości i nadmiernego entuzjazmu, czy ludzie gremialnie włączą nową technologię do swojego codziennego życia? Smartfon jest prawdopodobnie najlepszym niedawnym przykładem nowej technologii, która szybko zmieniła świat. Segue to kultowy kontrprzykład. Myślę, że odpowiedzią na nowe aplikacje AI jest sposób ich stosowania. Jedna „killer app” i wkrótce nie będziemy pamiętać, jak to się stało, że radziliśmy sobie bez tej technologii. Przewiduję, że aplikacje AI typu ChatGPT będą doskonałymi osobistymi asystentami.

 

To, o czym mówiłem na SBM, to potencjał oprogramowania AI w stylu ChatGPT jako doskonałego systemu eksperckiego dla lekarzy. Tym, co stanowi o świetności tych systemów, jest posiadanie przez nie ogromnej bazy danych informacji na wyciągnięcie (cyfrowej) ręki. Mogą szybko przeszukać te informacje i przedstawić czytelne podsumowanie. Świat medyczny domaga się takiej aplikacji, ponieważ jesteśmy coraz bardziej pogrążeni w nieustannej lawinie nowych badań, standardów praktyki i opcji leczenia. To może i powinno stać się niezbędnym narzędziem dla każdego klinicysty.

 

Najwyraźniej nie jestem jedyną osobą, która wpadła na ten (co prawda oczywisty) pomysł. Uniwersytet Stanforda stworzył PubMedGPT – wersję ChatGPT wyszkoloną wyłącznie w zakresie literatury medycznej. Przynajmniej może to służyć jako doskonała wyszukiwarka – „Pokaż mi wszystkie opublikowane badania w ciągu ostatnich 2 lat dotyczące terapii X choroby Y”. PubMed to nieocenione i niezbędne źródło informacji. Ale jego wyszukiwarka jest nieco niezgrabna. Często łączę to z Google, które ma po prostu lepszą wyszukiwarkę. Przede wszystkim chciałbym, aby PubMed włączył technologię ChatGPT do swojej wyszukiwarki.

 

Aby przetestować model, PubMedGPT przeszedł trzyczęściowe egzaminy USMLE, które lekarze muszą zdać, aby uzyskać licencję [odpowiednik polskiego lekarskiego egzaminu końcowego – LEK, przyp. tłum.]. Wynik egzaminu jest określany w procentach, ale zwykle trzeba poprawnie odpowiedzieć na około 60% pytań (to naprawdę trudny test, więc nie myśl, że to zły wynik). PubMedGPT uzyskał wynik 50,8%, co nie jest wynikiem pozytywnym, ale całkiem niezłym jak na chatbota. Wiele pytań jest subtelnych i skomplikowanych koncepcyjnie, więc jest to imponujący pokaz.

 

Jednak ChatGPT (szkolony w Internecie od 2021 r.) również został przetestowany. W trzech testach uzyskał od 52,4 do 75%, ze średnim wynikiem tuż poniżej progu 60%. Żeby było jasne, nie zdałby wszystkich trzech egzaminów, ale to imponujący wynik. Jest też lepszy niż PubMedGPT, co jest interesujące. Zastanawiam się, jak poradziłaby sobie aplikacja GPT, gdyby była najpierw szkolona w całym Internecie, a następnie w PubMed, dając pierwszeństwo informacjom z PubMed?

 

Powinniśmy myśleć o tym wyniku w taki sam sposób, jak o pierwszym razie, gdy program komputerowy był bliski pokonania światowego mistrza szachowego. Wkrótce te programy szachowe były tak dobre, że żaden ludzki gracz nie mógł się do nich zbliżyć. Podobnie, nie sądzę, że minie dużo czasu (jeśli prace nad tą konkretną aplikacją będą kontynuowane), zanim będziemy mieć medyczne systemy eksperckie GPT, które uzyskają 80% poprawnych wyników, a ostatecznie ponad 90% poprawnych. 

 

ChatGPT zdaje również egzaminy z szkoły prawniczej oraz egzaminy MBA. Ponownie, nie przewyższa najlepszych uczniów, ani nawet przeciętnych uczniów, ale daj mu czas.

 

To wszystko jest dobre. Pokazuje potencjał tego typu zastosowań technologii AI. Z niecierpliwością czekam na dzień, w którym na biurku w mojej klinice pojawi się w komputerach aplikacja MedicalGPT, gotowa do dostarczania aktualnych informacji, które pomogą mi w podejmowaniu decyzji klinicznych. Pomyśl o oszczędnościach w służbie zdrowia. Microsoft inwestuje miliardy dolarów w uzyskanie przewagi w wojnach wyszukiwarek. Możemy zainwestować miliardy dolarów w poprawę opieki zdrowotnej.


ChatGPT Almost Passes Medical Licensure Exams

NeuroLogica Blog, 13 lutego 2023

Tłumaczenie: Małgorzata Koraszewska

 
*Steven Novella 

Neurolog, wykładowca na Yale University School of Medicine. Przewodniczący i współzałożyciel New England Skeptical Society. Twórca popularnych (cotygodniowych) podkastów o nauce The Skeptics’ Guide to the Universe. Jest również dyrektorem Science-Based Medicine będącej częścią James Randi Educational Foundation (JREF), członek Committee for Skeptical Inquiry (CSI) oraz członek założyciel Institute for Science in Medicine. Prowadzi blog Neurologica.