Rorschach, který vám pomůže se statistikou

Trestanci se stali inspirací novému balíku R Častý problém při analýze dat je, že výzkumník má tendenci vidět vztahy, které v datech nejsou („tady je jasná závislost, to nevadí, že test nevyšel významně“). Správným přístupem je předregistrace a spoléhání na statistické testy. Druhou možností je použít metody z oblasti visual inference statistics předtím, než se výzkumník přímo zanoří do dat.

Obecně metoda funguje následovně: Z naměřených dat se vytvoří několik grafů, ve kterých jsou data vybraná náhodně za předpokladu, že není mezi daty žádný vztah. Tyto grafy se seřadí vedle sebe a namísto jednoho z nich se schová originální graf. Pokud pozorovatel správně pozná originální graf, lze to brát jako jeden z důkazů vztahu mezi proměnnými. Tomuto způsobu se říká lineup protokol, jelikož připomíná stejnou metodu, která se používá při identifikaci pachatelů. V jazyce R je pro tyto účely specializovaný balíček nullabor, který umožní na pár řádek kódu generovat podobné grafy.

V následujícím obrázku vidíte ukázku přesně takového lineupu. Poznáte, která korelace je originální? Data se týkají testů aut z roku 1974. Na ose x vidíte počet ujetých mil na jeden galon a na ose y je váha auta. (Správná odpověď je na konci).

Graf 1

Jelikož ale nejsme specialisté na to, jak mohou vypadat náhodně generovaná data (za platnosti nulové hypotézy), je třeba nejprve „nakalibrovat oči“ na přirozenou varianci – právě k tomu slouží tzv. Rorschachův protokol. V našem případě bychom se tedy nejprve před samotným „testovaním“ podívali na různá náhodná data. Ty můžeme vidět v následujícím obrázku. Kolik tam vidíte zajímavých vztahů? Nebo to je vše přibližně podobné?

Graf 2

Pro více informací doporučujeme článek od Wickhama, Cookové, Hofmannové a Buji (2010). Použití těchto metod oproti klasickým testům validizoval Mahbubul Majemder ve své dizertační práci či v následných článcích (např. Majumder, Hofmann, & Cook, 2013).

Odpověď na první otázku je graf č. 6.

17/6/2018 (mp, fd)

Zdroje

CRAN R Project. Dostupné z: https://cran.r-project.org/web/packages/nullabor/vignettes/nullabor.html

Majumder, M., Hofmann, H., & Cook, D. (2013). Validation of visual statistical inference, applied to linear models. Journal of the American Statistical Association, 108(503), 942-956.

Wickham, H., Cook, D., Hofmann, H., & Buja, A. (2010). Graphical inference for infovis. IEEE Transactions on Visualization and Computer Graphics, 16(6), 973-979.

Wickham, H., Chowdhury, N. R., & Cook, D. (2012). nullabor: Tools for graphical inference. R package version 0.2, 1, 213.

Poznámky

S grafy se pak v R dá dále pracovat. Lze tak kupř. spočítat rozdíl mezi vaší testovou statistikou a ostatními vygenerovanými statistikami (průměrné rozdíly mezi lineupy). V případě, že průměrná vzdálenost hodnot těchto generovaných statistik dosahuje nižších hodnot než průměrná vzdálenost hodnot reálné testové statistiky, pak seřazení považujeme za ucházející (easy lineup naproti neucházejícímu – difficult lineup).