Dlaczego powinniśmy używać błędów t zamiast zwykłych błędów?

30

W tym poście na blogu Andrew Gelmana znajduje się następujący fragment:

Modele bayesowskie sprzed 50 lat wydają się beznadziejnie proste (z wyjątkiem, oczywiście, prostych problemów) i spodziewam się, że modele bayesowskie będą wydawać się beznadziejnie proste, za 50 lat. (Dla prostego przykładu: prawdopodobnie powinniśmy rutynowo używać t zamiast zwykłych błędów prawie wszędzie, ale jeszcze tego nie robimy, ze względu na znajomość, nawyk i matematyczną wygodę. Mogą to być dobre powody - w nauce jako w polityce konserwatyzm ma wiele dobrych argumentów na swoją korzyść - ale myślę, że ostatecznie, gdy poczujemy się komfortowo dzięki bardziej skomplikowanym modelom, pójdziemy w tym kierunku).

Dlaczego powinniśmy „rutynowo używać t zamiast zwykłych błędów prawie wszędzie”?

Ziemniak
źródło

Odpowiedzi:

40

Ponieważ zakładanie normalnych błędów jest faktycznie tym samym, co zakładanie, że duże błędy nie występują! Rozkład normalny ma tak lekkie ogony, że błędy poza odchyleniami standardowymi mają bardzo małe prawdopodobieństwo, błędy poza ± 6 odchyleń standardowych są praktycznie niemożliwe. W praktyce założenie to rzadko jest prawdziwe. Analizując małe, uporządkowane zestawy danych z dobrze zaprojektowanych eksperymentów, może to nie mieć większego znaczenia, jeśli przeprowadzimy dobrą analizę pozostałości. W przypadku danych o niższej jakości może to mieć znacznie większe znaczenie.±3±6

Kiedy używa się metod opartych na prawdopodobieństwie (lub bayesowskich), efektem tej normalności (jak powiedziano powyżej, w rzeczywistości jest to „brak dużych błędów” - założenie!) Sprawia, że ​​wnioskowanie jest bardzo mało wiarygodne. Duże błędy w zbyt dużym stopniu wpływają na wyniki analizy! Musi tak być, ponieważ założenie, że „brak dużych błędów” zmusza nasze metody do interpretowania dużych błędów jako małych błędów, a może to nastąpić jedynie poprzez przesunięcie parametru wartości średniej, aby zmniejszyć wszystkie błędy. Jednym ze sposobów uniknięcia tego jest użycie tak zwanych „solidnych metod”, patrz http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf

tν

t

ttttt

(*) Jedna wzmianka stwierdzająca, że ​​jest to MASA Venables & Ripleya --- Nowoczesne statystyki stosowane z S (na stronie 110 w 4. edycji).

kjetil b halvorsen
źródło
3
νν2tνν>2
2
Świetna odpowiedź i komentarz. Ale: 1. Gelman broni standardowej procedury, która będzie lepsza niż zakładanie normalnych błędów. Powinniśmy więc porównać proste (błędy normalne) z rozkładem T. błędów. 2. W powiązanym pytaniu połączonym przez user603 powinniśmy zauważyć, że jeśli qe ma wcześniejsze informacje, powinniśmy je wykorzystać. Bayes wyróżnia się wcześniejszymi informacjami. I w przykładzie mamy wcześniejsze informacje, które nie są wykorzystywane. 3. Przy tylnych kontrolach predykcyjnych nie jesteśmy d know that the model proposed isnwystarczająco dobrzy.
Manoel Galdino
1
t1
1
Nie, rozkład t jest jedynym wyborem, ponieważ rozkład t jest tylną predykcją modelu Gaussa. Gelman nie tylko wybierał losowo rozkład T.
Neil G
1
Patrz: Murphy, Kevin P. „Koniugat Bayesowska analiza rozkładu Gaussa”. def 1.2σ2 (2007): 16. Oblicza rozkład t jako tylną predykcję modelu Gaussa. Nie chodzi tylko o to, że modelarz wybiera dowolną rozkład ciężki.
Neil G
10

Nie chodzi tylko o „cięższe ogony” - istnieje wiele dystrybucji, które mają kształt dzwonu i mają ciężkie ogony.

Rozkład T jest tylną predykcją modelu Gaussa. Jeśli przyjmiesz założenie Gaussa, ale masz skończone dowody, to wynikowy model koniecznie tworzy niecentralnie skalowane przewidywania o rozkładzie t. W granicy, gdy ilość dowodów, które posiadasz, dochodzi do nieskończoności, kończysz się przewidywaniami Gaussa, ponieważ granica rozkładu t jest Gaussa.

Dlaczego to się dzieje? Ponieważ przy skończonej ilości dowodów parametry twojego modelu są niepewne. W przypadku modelu Gaussa niepewność w średniej zwiększyłaby jedynie wariancję (tj. Tylna predykcja Gaussa o znanej wariancji jest nadal Gaussa). Ale niepewność co do wariancji powoduje ciężkie ogony. Jeśli model jest trenowany z nieograniczoną liczbą dowodów, nie ma już żadnej niepewności co do wariancji (lub średniej) i możesz użyć swojego modelu do prognozowania Gaussa.

Ten argument dotyczy modelu Gaussa. Dotyczy to również wywnioskowanego parametru, którego prawdopodobieństwa są gaussowskie. Biorąc pod uwagę dane skończone, niepewność dotycząca parametru jest rozkładem-t. Wszędzie tam, gdzie istnieją założenia normalne (z nieznaną średnią i wariancją) oraz dane skończone, istnieją predykcje z tyłu rozkładające się na t.

Istnieją podobne tylne rozkłady predykcyjne dla wszystkich modeli bayesowskich. Gelman sugeruje, że powinniśmy ich używać. Jego obawy złagodzą wystarczające dowody.

Neil G.
źródło
Czy możesz to zrobić z pewnymi referencjami?
kjetil b halvorsen
2
@kjetilbhalvorsen: Murphy, Kevin P. „Koniugat Bayesowska analiza rozkładu Gaussa”. def 1.2σ2 (2007): 16.
Neil G
Ciekawa perspektywa, nigdy wcześniej tego nie słyszałem. Czy zatem błędy rozkładów T prowadzą również do prognoz rozkładów T? To dla mnie argument przemawiający za dalszym używaniem błędów Gaussa. O ile nie oczekujesz warunkowych wartości odstających, model błędu warunkowego nie musi na nie zezwalać. Sprowadza się to do założenia, że ​​cała odległość wynika z odległych wartości predyktorów. Nie sądzę, że założenie to jest tak złe w wielu przypadkach. I ze względów czysto estetycznych nie rozumiem, dlaczego rozkłady warunkowe i krańcowe muszą się zgadzać
shadowtalker
@ssdecontrol „Czy błędy T-Distributed prowadzą również do prognoz T-Distributed?” Nie wiem, ale nie sądzę. Dla mnie ta perspektywa jest bardzo przydatna do intuicyjnego zrozumienia, dlaczego działa test t.
Neil G