Replikační krize: Zpřísnit hranici testové statistiky nic neřeší

V souvislosti s pochybnými výzkumnými praktikami a fenomény obecně spjatými s tím, co nazýváme replikační krizí, se rojí iniciativy, které se snaží výzkum zejména v psychologii zpřehlednit a nastavit přísnější, ale zároveň obecně platná pravidla pro publikování vědeckých článků. Jedno z aktuálně diskutovaných témat je, zdali by obecně neměla být zpřísněna hodnota statistické významnosti, za níž již nelze zamítnout alternativní hypotézu (Benjamin et al., 2018).

\brian \nosek: jedna z nejviditelnějších postav replikační krize v psychologii — Jeden z prvních iniciátorů snah o otevřenou vědu Brian Nosek přišel s platformou Open Science Framework, na níž výzkumníci předregistrovávají své studie, včetně jejich designu a dalších parametrů. To vědecké úsilí zpřehledňuje, ztransparentňuje, a zároveň napomáhá právě i reprodukovatelnosti výsledků. Více ve videu zde. (Zdroj: University of Queensland/YouTube).

Autoři studie (Benjamin et al., 2018) uvádí, že současně často využívané kritérium p < .05 je (1) zkrátka příliš nízké, a je tedy slabým důkazem pro nemožnost zamítnutí alternativní hypotézy. Nadto (2) takto zvolená hladina testování představuje vysokou pravděpodobnost falešně pozitivních výsledků. S takto jednoduchými závěry se ale velká část vědců neztotožňuje. V nedávné studii (Lakens et al., 2018) sice souhlasíme, že p hodnoty blízko hranici .05 neposkytují dostatečné důkazy pro zamítnutí nulové hypotézy, zároveň upozorňujeme, že není dostatek důvodů domnívat se, že současný „nízký standard“ je tím hlavním důvodem nereprodukovatelnosti výsledků studií.

Ta má více příčin, striktnější limit by ale kupř. nezohledňoval dnes už čím dál častější využívání bayesiánských metod, které mnohdy mohou vést i k de facto přísnějším standardům. Zároveň by přísnější limit mohl zásadně zvýšit nároky na počet participantů v replikačních studiích (kupř. 80% síla testu bude vyžadovat v případě hladiny významnosti .005 naproti .05 a oboustranného testu až o 70 % více účastníků). A i kdyby takovéto kritérium bylo vyžadováno pouze u nových studií, jak Benjamin et al. (2018) navrhují, je otázkou, zdali již nyní obtížná snaha motivovat vědce replikovat, by se vzhledem k nutnosti vynaložení dodatečných zdrojů nestala ještě obtížnější. Nárůst nákladů na výzkum se pak může kromě toho odrazit i ve využívání „šetrnějších“ výzkumných souborů, které by častěji využívaly spíše dobrovolníky či studenty, tj. oportunní výběr definovaný zejména příležitostí, namísto snahy zkoumat specifičtější soubory. Obecně si nadto nejsme jistí, zda je nutné věnovat pozornost právě takovým otázkám, jakou je statistická významnost, namísto hledání nových dynamických přístupů a metod.

V článku tvrdíme (Lakens et al. 2018), že by koncept statistické významnosti měl být spíše opouštěn, a že by výzkumníci měli věnovat mnohem větší pozornost zdůvodňování zvolených parametrů a předpokládané významnosti ještě před sběrem dat (a to i z důvodů o kterých jsme již psali). A to právě namísto „výzkumných heuristik“, jakou do jisté míry je právě i zaměření naší pozornosti na statistickou signifikanci: Využívejme spíše komplexní přístupy. Zabývejme se spíše tím, jaká jsou teoretická východiska i praktické důsledky našich výsledků a svá výzkumná rozhodnutí zdůvodňujme.

Zajímavé odkazy

Metaanalýza využívání bayesianských metod v psychologii.

Video Briana Noseka o replikacích.

Zdroje

Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E. J., Berk, R., ... & Cesarini, D. (2018). Redefine statistical significance. Nature Human Behaviour, 2(1), 6.
Lakens, D., Adolfi, F. G., Albers, C. J., Anvari, F., Apps, M. A., Argamon, S. E., ... & Buchanan, E. M. (2018). Justify your alpha. Nature Human Behaviour, 2(3), 168.

11/03/2020 (mp)