Czy LSD Fishera jest tak złe, jak mówią?

22

Kiedy przeprowadzamy eksperymenty (na małych próbkach (zwykle wielkość próbki na grupę badaną wynosi około 7 ~ 8)) na dwóch grupach, używamy testu t, aby sprawdzić różnicę. Jednakże, gdy wykonujemy ANOVA (oczywiście dla więcej niż dwóch grup), używamy czegoś podobnego do Bonferroni (LSD / # porównań parami) lub Tukeya jako post hoc, a jako student zostałem ostrzeżony przed używając najmniej znaczącej różnicy Fishera (LSD).

Rzecz w tym, że LSD jest podobny do parowego testu t (mam rację?), Więc jedyną rzeczą, której nie uwzględnia, jest to, że przeprowadzamy wiele porównań. Jak ważne jest, gdy w kontaktach z powiedzmy 6 grupami, sama ANOVA jest znacząca?

Lub innymi słowy, czy istnieje jakiś naukowy / statystyczny powód stosowania LSD Fishera?

Rover Eye
źródło
1
Czy możesz wyjaśnić, kim są „ oni ” i podać przykłady tego, co mówią? (Jak źle mówią, że to jest? Wyjaśnijmy, o czym tutaj rozmawiamy.) Widziałem krytykę LSD, niektóre uzasadnione, ale nie wiem, czy widziałem to, co ty widziałem, ani że to, co widziałem, wymagałoby dość takiej charakterystyki, którą tam macie.
Glen_b
+1, jeśli przyszedłeś tutaj, próbując dowiedzieć się, która strona wymiany stosów mówi o Timothy Learys LSD
PW Kad
@Glen_b Odnoszą się do naukowców z nauk biomedycznych. Słowa mojego profesora brzmiały: „Użyj Bonferroniego lub Tukeya. Używaj LSD tylko w desperacji. Jeśli to nie pomoże, użyj drugiego LSD :)”
Rover Eye

Odpowiedzi:

10

LSD Fishera jest rzeczywiście serią par testów t, przy czym w każdym teście wykorzystuje się średni błąd kwadratu ze znaczącej ANOVA jako jego oszacowaną sumę wariancji (i naturalnie przyjmuje powiązane stopnie swobody). To, że ANOVA będzie znacząca, jest dodatkowym ograniczeniem tego testu.

Ogranicza rodzinny poziom błędu do alfa w szczególnym przypadku tylko 3 grup. Howell ma bardzo dobre i stosunkowo proste wyjaśnienie, jak to robi w rozdziale 16 swojej książki Fundamental Statistics for the Behavioural Sciences, wydanie 8, David C. Howell .

Powyżej 3 grup alfa gwałtownie rośnie (jak zauważył @Alexis powyżej). Nie jest to z pewnością odpowiednie dla 6 grup. Uważam, że to ograniczone zastosowanie powoduje, że większość ludzi sugeruje ignorowanie go jako opcji.

Marcus Morrisey
źródło
18

Jak ważne są wielokrotne porównania w przypadku 6 grup? Cóż ... z sześcioma grupami masz do czynienia z maksymalnie możliwychporównań paramipost hoc. Pozwolę nieocenionemu Randallowi Munroe odnieść się do znaczenia wielu porównań:6(6-1)2)=15

wprowadź opis zdjęcia tutaj

I dodam, że jeżeli, jak w zdaniu, sugerujesz, że czasem trzeba siedem grup, wówczas maksymalna ilość post hoc parami testów jest 7(7-1)2)=21

Alexis
źródło
1
Punkt dobrze wykonany. Czy jednak nie rodzi to wątpliwości, że jeśli mamy bardzo niewiele grup (powiedzmy 3 (3 pary) lub 4 (6 par)) prawdopodobieństwo znalezienia znaczącej wartości przez przypadek jest niskie? (ponownie, LSD jest chroniony przez znaczenie ANOVA)
Rover Eye
2
α
2
@Rover Mając 6 par testów, które wszystkie zdają z p> 0,05, oznacza to, że masz teraz p> 0,26, to dość znacząca zmiana.
Voo,
Nie pytam o nic praktycznego, po prostu zastanawiałem się głośno. Ale twój punkt widzenia jest słuszny. @Voo prawda, błąd ma tendencję do mnożenia. Dziękuję wam obojgu.
Rover Eye
10

Test Fishera jest tak zły, jak wszyscy twierdzą, że jest z punktu widzenia Neymana-Pearsona i jeśli zrobisz to, co sugeruje twoje pytanie --- po znaczącym teście ANOVA każda indywidualna różnica. Widać to w wielu opublikowanych artykułach . Ale testowanie wszystkich różnic po ANOVA lub dowolnej z nich nie jest ani konieczne, ani zalecane. Test Fishera nie został opracowany zgodnie z teorią wnioskowania statystycznego Neymana-Pearsona.

Ważne jest, aby pamiętać, że kiedy Fisher zaproponował LSD, tak naprawdę nie uważał wielu testów za ważny problem, ponieważ nie uważał, że odcięcie znaczenia jest twardą i szybką zasadą przy podejmowaniu decyzji, czy wyniki są ważne, czy nie. Można skonstruować LSD jako łatwy sposób na przejrzenie danych w celu znalezienia istotnych wyników, ale nie arbitra tego, co było znaczące. Pamiętaj, że to Fisher powiedział, że powinieneś poprowadzić więcej przedmiotów, jeśli p > 0,05.

A dlaczego uważasz, że testowanie wszystkiego to dobry pomysł? Zastanów się, dlaczego uruchamiasz ANOVA. Prawdopodobnie nauczono Cię, że dzieje się tak, ponieważ przeprowadzanie wielu testów T jest problematyczne, ponieważ intymnie w swoim pytaniu. Więc dlaczego je uruchamiasz lub ich ekwiwalent później? Wiem, że tak się dzieje, ale jeszcze nigdy nie musiałem przeprowadzać testu po ANOVA. ANOVA mówi ci, że twój wzorzec danych nie jest zbiorem równych wartości, że może tam być jakieś znaczenie. Wiele osób odkłada ostrzeżenie, że test nie mówi ci, gdzie są znaczące bity, ale zapominają, że dane i teorie to mówią.

Jan
źródło
Dziękuję za dokumenty. stawiasz pytanie, dlaczego ludzie używają post-hoc po ANOVA. Mówiąc szczerze, naprawdę nie wiem. Powiedziano mi, że ANOVA jest testem kropelkowym i jak wspomniałeś, musieliśmy dowiedzieć się, na czym polega znaczenie. I szczerze mówiąc, interesuje mnie, jak zgłaszasz tylko ANOVA.
Rover Eye
1
Daj mi wzór danych, a powiem ci, jak zgłosić ANOVA. Krótka wersja polega na tym, że opisujesz dane. Przedmioty bardzo blisko siebie zostaną pogrupowane w opisie, a te znajdujące się daleko od siebie uważane będą za znaczące różnice (ale to wszystko względne). Powiedzmy, że mam A = 20, B = 58, C = 61, p = 0,03. Zgłosiłbym statystyki i powiedziałbym, że A jest niższe niż B i C, które są podobne. Wszystko zależy więc od danych. Mogę sobie wyobrazić sekwencję elementów, które są nieco kłopotliwe (A = 10, B = 20, C = 30) na kilka wnioskowania, ale być może powinienem był zrobić regresję.
Jan
To dość interesujący sposób na zgłoszenie ANOVA i widzę, do czego zmierzasz. Chociaż z pewnością mogę omówić to z moimi przełożonymi, nie jestem zbyt pewien, czy chcieliby złamać „normę” zgłaszania ANOVA bez posthoc. Próbuję znaleźć publikacje naukowe, które zgłosiły zastosowanie tej metody.
Rover Eye
2
Coś ma znaczenie w danych. Dość często oczywiste jest, co to musi być. Wykonywanie post hoc w celu wykazania oczywistości po prostu pokazuje, że nie wiesz, co robi ANOVA.
Jan
6

Argumentację LSD Fishera można rozszerzyć na przypadki przekraczające N = 3.

Omówię szczegółowo przypadek czterech grup. Aby utrzymać rodzinny poziom błędu typu I na poziomie 0,05 lub niższym, wystarczy współczynnik korekty wielokrotnego porównania wynoszący 3 (tj. Alfa dla porównania wynoszący 0,05 / 3), chociaż istnieje sześć porównań post-hoc między czterema grupami. To dlatego, że:

  • w przypadku gdy wszystkie cztery prawdziwe wartości są równe, omnibus Anova w czterech grupach ogranicza rodzinny wskaźnik błędów do 0,05;
  • w przypadku gdy trzy prawdziwe średnie są równe, a czwarty różni się od nich, istnieją tylko trzy porównania, które potencjalnie mogą spowodować błąd typu I;
  • w przypadku, gdy dwa prawdziwe średnie są równe i różnią się od dwóch pozostałych, które są sobie równe, istnieją tylko dwa porównania, które potencjalnie mogą spowodować błąd typu I.

To wyczerpuje możliwości. We wszystkich przypadkach prawdopodobieństwo znalezienia jednej lub więcej wartości p poniżej 0,05 dla grup, których prawdziwe średnie są równe, pozostaje na poziomie lub poniżej 0,05, jeśli współczynnik korygujący dla wielu porównań wynosi 3, i jest to definicja rodzinnego poziomu błędu.

To rozumowanie czterech grup jest uogólnieniem z wyjaśnienia Fishera dla jego trzyosobowej metody najmniej znaczącej różnicy. Dla grup N współczynnik korekcji, jeżeli test Omnibus Anova jest znaczący, wynosi ( N -1) ( N -2) / 2. Zatem korekcja Bonferroniego, współczynnik N ( N -1) / 2, jest zbyt silna. Wystarczy zastosować współczynnik korekcji alfa 1 dla N = 3 (dlatego LSD Fishera działa dla N = 3), współczynnik 3 dla N = 4, współczynnik 6 dla N = 5, współczynnik 10 dla N = 6 i tak dalej.

Paul Boersma
źródło
+1. To bardzo dobry dodatek do wątku. Witamy na stronie!
ameba mówi Przywróć Monikę
Każda opisana sytuacja nie wymaga żadnych testów post hoc.
Jan
1
(N.-1)(N.-2))/2)