Porażka jest stałym elementem pracy naukowca

Tomasz Witkowski, Konrad Bocian

2020-03-07

Rozmowa z dr. Konradem Bocianem o wynikach psychologicznego projektu replikacyjnego Many Labs 2

W listopadzie 2018 r. opublikowano wyniki dużego psychologicznego projektu replikacyjnego Many Labs 2, które pokazały, że w przypadku połowy znanych eksperymentów psychologicznych udaje się uzyskać rezultaty podobne, choć nieco słabsze od oryginalnych. Przez kilka lat 186 badaczy z 60 różnych laboratoriów na 6 różnych kontynentach, reprezentujących 36 narodowości, prowadziło replikację 28 głośnych badań. W każdym z nich wzięło udział ponad 7 tys. osób badanych z różnych kultur. Dla porównania, w oryginalnych badaniach przeciętnie było to 112 osób.

Jednym z sześciu badaczy polskich zaangażowanych w projekt jest dr Konrad Bocian , psycholog społeczny, adiunkt na Uniwersytecie SWPS w Sopocie, członek sopockiego Centrum Badań nad Poznaniem i Zachowaniem, dziennikarz naukowy. Jest stypendystą Fundacji na rzecz Nauki Polskiej oraz Narodowej Agencji Wymiany Akademickiej, autorem międzynarodowych publikacji z zakresu poznania społecznego. W latach 2013-2016 był dyrektorem ds. nauki w firmie Quantum Lab, gdzie odpowiadał za teorię oraz walidację danych, na podstawie których powstały główne produkty firmy. Na co dzień zgłębia tajniki ludzkiej moralności oraz zajmuje się popularyzacją nauki.

Many Labs 2 to jeden z największych projektów replikacyjnych, jakie przeprowadzono w historii psychologii. Byłeś jego współautorem. Dlaczego niektórzy uczeni uważają, że są to jedne z najdonioślejszych wyników badań, które uzyskano w tej dziedzinie nauki w ostatnich kilkudziesięciu latach?

Przede wszystkim ze względu na wyniki oraz wysiłek włożony w ich replikację. Projekt Many Labs 2 wykazał, że o sukcesie replikacji danego badania decydowała głównie wielkość odkrytego pierwotnie efektu, czyli to, jak duże różnice między grupami wykryto w pierwszym badaniu. Czynniki kulturowe, kolejność prezentowania zadań czy miejsce badania miały mniejsze znaczenie.

Udało wam się zreplikować dokładnie połowę badań, które wzięliście na warsztat. To dużo czy mało?

Nie potrafię jednoznacznie odpowiedzieć na to pytanie, ponieważ nie mamy skali porównawczej. Pierwsza tura, Many Labs 1, zreplikowała 10 z 13 efektów.

A Reproducibility Project – 36 ze 100. Czy to nie wystarczy, aby mówić o jakimś obrazie naszej dyscypliny? Pytając o to, czy to dużo, czy mało, pytałem w zasadzie o twoją interpretację wyniku. Czy powinniśmy się cieszyć, że aż 50% badań udało się z powodzeniem zreplikować, czy martwić, że tylko połowę? No i jak odbierają to inni autorzy projektu?

Nie rozpatrywałbym tych wyników w kategoriach radości czy smutku. Wyniki replikacji nie mówią o tym, że badania zostały źle przeprowadzone czy zaprojektowane, raczej wskazują, że uzyskane efekty nie są tak silne, jak wcześniej zakładano. Ta wiedza to największa wartość każdego projektu replikacyjnego. Wyniki replikacji mogą być odbierane jako porażka psychologii czy nawet samej nauki, jednak zarówno ja, jak i pozostali autorzy uważamy, że jest to dowód na to, że nauka zachowuje się tak, jak powinna, czyli jest sceptyczna i szuka ciągłych sposobów na doskonalenie dyscypliny. Można powiedzieć, że właśnie obserwujemy proces autokorekty wiedzy psychologicznej, którego celem jest jej weryfikacja. Jak na tak młodą dyscyplinę, jak psychologia, świadczy to o dużej dojrzałości naukowców, którzy ją reprezentują.

W jaki sposób ty sam trafiłeś do projektu Many Labs 2?

Zostałem zaproszony przez głównego pomysłodawcę Ricka Kleina, którego poznałem w USA na konferencji i z którym współpracowałem przy pierwszej części projektu: Many Labs 1.

Do niedawna replikowanie badań innych badaczy oznaczało dla naukowców stratę czasu, a nawet zagrożenie rozwoju własnej kariery. Czy to się zmieniło? Udział w tym projekcie pomoże ci w rozwoju kariery naukowej czy będzie przeszkodą?

Wiadomości z pogróżkami nie otrzymuję. A poważnie – udział w projekcie wiążę z rozwojem naukowym. Przede wszystkim dzięki projektowi nawiązałem wiele nowych kontaktów z innymi naukowcami, a projekt Many Labs 1 to najwyżej cytowana praca w mojej karierze. Poza tym udział w projekcie był ciekawym doświadczeniem badawczym. Od etapu zapoznania się z badaniami, poprzez przygotowanie materiałów, aż po przeprowadzenie eksperymentów.

Jeszcze kilka lat temu Hal Pashler, inicjator projektów replikacyjnych i zwolennik publikowania negatywnych wyników badań, twierdził, że jedną z głównych przyczyn powstrzymujących innych przed replikacją jest obawa przed posądzeniem, że nie ufa się autorom pierwotnych badań i w jakiś sposób ich kontroluje, co było bardzo źle widziane w środowisku i wiązało się z jakąś formą ostracyzmu. Z drugiej strony próba publikacji jakichkolwiek wyników replikacji w prestiżowych czasopismach była z góry skazana na niepowodzenie. Czy to się zmieniło i dzisiaj jest inaczej?

Zdecydowanie. Większość czasopism zmieniło politykę publikacyjną. Nie tylko zachęcają do prerejestracji hipotez i badań, ale także wymagają podania, na jakich zasadach i za pomocą jakich narzędzi oszacowana została próba badawcza. Oznacza to, że autor musi podać w artykule, na jakiej podstawie wyznaczył, że w warunku badawczym będzie 50 osób, a nie na przykład 100. Poza tym czasopisma wprowadziły osobne sekcje, w których można publikować wyniki replikacji. Na przykład wyniki Many Labs 2 zostały opublikowane w czasopiśmie „Advances in Methods and Practices in Psychological Science”, które zachęca do publikacji prerejestrowanych raportów replikacyjnych.

Rzeczywiście większość? Dysponujesz jakimiś liczbami, czy to tylko wrażenie? W 2009 roku tylko trzy czasopisma psychologiczne przyjmowały do druku replikacje, a jeszcze w 2011 roku prestiżowy „Journal of Personality and Social Psychology” kategorycznie odmówił opublikowania replikacji najgłośniejszego eksperymentu ostatnich lat, pokazującego istnienie zjawiska prekognicji i rewolucjonizującego całą naukę, nie tylko psychologię.

Rzeczywiście większość tych, które uznajemy za topowe, czyli znajdujące się w pierwszej dwudziestce najlepszych czasopism naukowych, w tym „Science”, „Journal of Personality and Social Psychology”, „Journal of Experimental Social Psychology” czy „Personality and Social Psychology Bulletin”.

Doceniam te zmiany, bo śledzę je na bieżąco i uważam, że takie inicjatywy jak Many Labs 2 są bezcenne i godne naśladowania. Mam jednak również wrażenie, że buduje się wokół nich swoistą propagandę sukcesu, tłumaczy się studentom, że oto nadeszła „era wielkich replikacji”, która już wkrótce rozwiąże wszystkie problemy psychologii. Tymczasem powinniśmy chyba pamiętać o rzeczywistych proporcjach. Przed naszą rozmową sprawdziłem w bazie PsycINO liczbę opublikowanych tylko w języku angielskim w 2017 roku recenzowanych artykułów naukowych. Otrzymałem wynik 144.291. Kiedy zawęziłem wynik wyszukiwania do artykułów, które w tytule zawierają słowo „replication” wynik skurczył się do 181, co stanowi 0,125% poprzedniej liczby. Twoim zdaniem rozpoczęliśmy erę wielkich replikacji czy jesteśmy świadkami kiełkowania pewnej idei?

Podane przez ciebie liczby pokazują jak trudno nadążyć za napływem nowej wiedzy. Tym trudniejsze wydają się próby zreplikowania dotychczas opublikowanych badań. Nie sądzę, aby nastała era wielkich replikacji, jednak wykonana do tej pory przez naukowców, metodologów i statystyków praca zmieniła i nadal zmienia sposób prowadzenia badań, zasady ich recenzji oraz publikacji. Coraz większą wagę przykłada się do prerejestracji hipotez oraz proponowanych metod badawczych. Mówi się także więcej o zawansowanych analizach statystycznych, a przede wszystkim o rekrutacji odpowiedniej wielkości grupy badawczej, tak żeby wykonywane testy statystyczne miały odpowiednią moc. Innymi słowy, standardy prowadzenia badań w psychologii powoli stają się bardziej rygorystyczne i wymagające dla samych badaczy. Wierzę jednak, że dzięki tym zmianom będziemy mogli z większą pewnością i zaufaniem podchodzić do publikowanych wyników.

Przede wszystkim muszę zaprotestować przeciwko wykorzystaniu podanych przeze mnie liczb do konstatacji o „napływie nowej wiedzy”. Z tego, co mi wiadomo, ponad połowa wszystkich publikowanych obecnie wyników badań nie jest nigdy przez nikogo cytowana, włącznie z ich autorami. Dotyczy to nawet 20% artykułów publikowanych w najbardziej prestiżowych czasopismach z tzw. listy filadelfijskiej. Naukoznawcy nazywają tę część produkcji uczonych „nauką śmieciową” (junk science ) i w żadnym razie nie utożsamiają tego z przyrostem wiedzy. Wykorzystywanie tych liczb do mówienia o przyroście wiedzy to trochę tak, jakby liczbą filmików zamieszczanych na YouTubie próbować przekonywać ludzi o zwiększającej się wartości artystycznej współczesnej produkcji filmowej.

W takim razie jak opisałbyś informacje płynące z tych publikacji? Szum informacyjny? Oczywiście część tych prac nie poszerza naszej wiedzy znacząco. Część została opublikowana w czasopismach, które mają tak niską rangę, że mało kto wie o ich istnieniu, a jeszcze inna część nie zostanie przeczytana, ponieważ nie jest w kręgu zainteresowań badacza. Niemniej każda z tych prac dostarcza jakichś informacji. Nawet jeśli jest to informacja o tym, jak nie robić badań.

Myślę, że to dużo bardziej złożony temat, który musimy odłożyć na inną, dłuższą rozmowę. Tymczasem wróćmy na chwilę do zmian w zasadach publikacji replikacji i respektowania wymogów metodologicznych publikowanych prac. Wspomniałeś między innymi o tym, że mówi się coraz więcej o znaczeniu mocy statystycznej narzędzi stosowanych do testowania hipotez. To problem, o którym od początku lat 60. XX w. aż do swojej śmierci bardzo głośno mówił Jacob Cohen, udowadniając matematycznie, że stosowane metody testowania hipotez zerowych dają wyniki obarczone błędem 60% i więcej. Dzisiaj w większości publikowanych prac nadal stosuje się krytykowane przez niego metody, choć powoli zaczyna się zwracać uwagę na to, o czym mówił on sam i inni metodolodzy. Czy naukowcy naprawdę potrzebują ponad pół wieku, aby zrozumieć krytykę swoich metod i zacząć je zmieniać?

Jeśli chodzi o metodologię czy analizy statystyczne, to zmiany wprowadzane są od wielu lat. Na przykład analizy mediacyjne z wykorzystaniem metody Cohena w wielu prestiżowych czasopismach nie są wystarczające. Edytorzy oraz recenzenci wprost piszą, że jest to metoda przestarzała i nieakceptowana, jeśli chodzi o analizę wyników mediacyjnych.

Nie mogę się wypowiadać w imieniu wszystkich naukowców, jednak patrząc na to, co się dzieje na polu międzynarodowym, odnoszę wrażenie, że metody zostały zmienione już kilka lat temu, a teraz wręcz nastąpił okres jeszcze szybszych przemian. Czy i z jakim tempem są wdrażane, zależy od motywacji samego naukowca i środowiska, w którym pracuje.

Kiedy ogłaszano wyniki poprzednich projektów, ich autorzy byli oskarżani o wichrzycielstwo, podważanie zaufania do nauki, o błędy metodologiczne, a nawet celowe manipulowanie metodologią. Czy od czasu ogłoszenia wyników Many Labs 2 posypały się już na wasze głowy gromy?

Póki co raczej spotykamy się z gratulacjami i bardzo dobrym odbiorem.

Dołączam zatem i ja do tych gratulacji, bo z pewnością na nie zasłużyliście. Pozwól jednak, że wystąpię w roli adwokata diabła i sformułuję kilka zarzutów, które spodziewam się usłyszeć ze strony niektórych uczonych. Janusz Trempała po ogłoszeniu wyników Reproducibility Project w 2015 roku stwierdził, że badania replikacyjne są przykładem nierzetelności naukowej, bo nie uwzględniają zmiennej upływu czasu, który nastąpił pomiędzy pierwszym badaniem a jego replikacją. Jego zdaniem replikowanie badań psychologicznych to strata czasu i marnotrawstwo środków.

Nie do końca rozumiem te argumenty. Oryginalne badania prowadzone były na studentach, replikacje także. Jeśli odkryty efekt generalizujemy na całą populację, to zakładamy, że będzie on też stabilny w czasie. Dlaczego miałby nie być? Nawet jeśli dotyczy on tylko białych i wykształconych studentów, to nadal powinniśmy obserwować go po upływie czasu. Właśnie dzięki replikacjom dowiedzieliśmy się, że ani kultura, ani wiek, a tym bardziej miejsce i czas badania nie mają znaczenia dla efektu. Jeśli pierwotny efekt był silny, zreplikowaliśmy go. Warto podkreślić, że jeśli chodzi o upływ czasu, to uwzględniliśmy dopasowanie materiałów do zmian cywilizacyjnych i kulturowych. Z drugiej strony, jeśli przyjmiemy argument profesora Trempały, to właśnie dzięki replikacjom dowiedzieliśmy się, które efekty wytrzymały próbę czasu. Na przykład efekty badań Kahnemam i Tverskiego zawsze się replikują, a od czasu ich publikacji minęło ponad 30 lat. Tym samym nie możemy mówić o stracie czasu czy marnotrawstwie środków – wiedza płynąca z replikacji jest bezcenna.

Norbert Schwartz porównał replikacje, takie jak przeprowadził Brian Nosek ze swoim zespołem, do ataków, ćwiczeń mających na celu doskonalenie umiejętności toczenia bitew, a Susan Fiske nazwała ludzi, którzy ośmielają się publicznie dyskutować wyniki badań naukowych i rozmawiać o ich metodologii – „metodologicznymi terrorystami”. Wyniki Many Labs 2 pojawiły się na Twitterze w postaci preprintu w sieci i zaczęły być dyskutowane, zanim naukowy establishment zakończył rytuały związane z ich zatwierdzeniem do druku. Czujesz się terrorystą atakującym innych?

Nie czuję, że kogoś atakuję, jednak zdaję sobie sprawę, że replikowanie badania, może być odbierane przez autora jako atak na jego osobę. Niestety środowisko naukowe, zamiast odnosić się do wyników badań, nieraz atakuje samego autora, podważając jego kompetencje i pozycję jako naukowca. W odpowiedzi inni naukowcy stają w obronie autora i atakują osoby przeprowadzające replikacje. A przecież powinniśmy dyskutować o wyniku, o tym, co on oznacza, a nie przerzucać się oskarżeniami. Gramy do jednej bramki i mam wrażenie, że powoli zaczynamy to rozumieć. W projekcie Many Labs 2 pracowali z nami autorzy oryginalnych badań. Działali jak eksperci, którzy wskazywali nam najlepszą drogę do wykonania rzetelnej replikacji. Właśnie o taką współpracę powinniśmy zabiegać, replikując badania.

Pod tym względem wasz projekt był wzorowy, uprzedziliście większość zarzutów, które formułowano pod adresem Reproducibility Project. Rozmawiamy ponad dwa miesiące po ogłoszeniu wyników. Napisały o nich między innymi „Nature”, „The Scientist”, „The Atlantic”, „The New Yorker”, „Futurism”, „Association for Psychological Science”, „BPS Research Digest” i wiele innych. W Polsce, z tego co mi wiadomo, a śledzę to bardzo dokładnie, nie ukazała się o tym nawet wzmianka. Skąd takie głuche milczenie wobec tak ważnego doniesienia naukowego, skoro psychologia niezmiennie cieszy się uwagą mediów i czytelników?

Psychologia potoczna lub popularnonaukowa cieszy się uwagą mediów. Niestety brakuje w Polsce mediów zainteresowanych ściśle nauką, a tym bardziej psychologią uprawianą na uniwersytetach. Można nawet powiedzieć, że wymienione media czekały na wyniki naszego projektu od dwóch lat, bo pierwotnie wyniki miały się ukazać w 2016 roku. Ma to też związek z wcześniejszym projektem Many Labs 1 oraz dużym zaangażowaniem głównych autorów w jego popularyzację. W Polsce tego typu projekty traktowane są przez media jako zbyt specyficzne, a to oznacza, że zainteresuje się nimi tylko wąskie grono odbiorców, dlatego nie opłaca się o nich pisać. Rozumiem to podejście i zdaję sobie sprawę, że wyniki naszego projektu mogą budzić większe zainteresowanie środowiska naukowego niż ogólnego czytelnika.

Zapewne więc będziemy musieli poczekać na jakąkolwiek dyskusję do czasu, aż negatywne interpretacje uzyskanych przez was wyników zostaną nagłośnione przez media. Studiuję zachowania uczonych od lat i jak do tej pory nie dostrzegłem, aby angażowali się w publiczną dyskusję wyników badań dopóty, dopóki nie poczują się sprowokowani i zagrożeni.

W takim razie przejmijmy inicjatywę, tłumacząc mediom i badaczom, że w naszych wynikach nie ma nic negatywnego. Jak mówiłem wcześniej, sceptycyzm jest cechą główną dobrego naukowca. Jeśli dotyczy on całej dyscypliny, świadczy o dojrzałości naukowej osób, które ją reprezentują. Porażka jest stałym elementem pracy naukowca. Tym bardziej porażka replikacyjna nie powinna nas smucić, ponieważ w gruncie rzeczy promuje ona innowacyjność.

Wywiad opublikowany pierwotnie w numerze 2/2019 „Forum Akademickiego”

Rozmawiał Tomasz WITKOWSKI

Dr Tomasz Witkowski , psycholog, autor trylogii Zakazana psychologia poświęconej nadużyciom i nieprawidłowościom w psychologii i psychoterapii, a także wydanych w USA Psychology Gone Wrong: The Dark Sides of Science and Therapy oraz Psychology Led Astray: Cargo Cult in Science and Therapy