Dzisiaj w Cross Validated Journal Club (dlaczego cię tam nie było?) @Mbq zapytał:
Czy uważasz, że my (współcześni naukowcy danych) wiemy, co to znaczy? A jak to się ma do naszego zaufania do naszych wyników?
@Michelle odpowiedziała, ponieważ niektórzy (w tym ja) zwykle:
Coraz mniej pomocna jest mi koncepcja znaczenia (oparta na wartościach p), gdy kontynuuję karierę. Na przykład mogę używać bardzo dużych zestawów danych, więc wszystko jest istotne statystycznie ( )
To chyba głupie pytanie, ale czy problemem nie jest testowana hipoteza? Jeśli przetestujesz hipotezę zerową „A jest równe B”, to wiesz, że odpowiedź brzmi „Nie”. Większe zestawy danych przybliżą Cię do tego nieuchronnie prawdziwego wniosku. Uważam, że to Deming podał kiedyś przykład z hipotezą „liczba włosów po prawej stronie jagnięcia jest równa liczbie włosów po lewej stronie”. Oczywiście, że nie.
Lepszą hipotezą byłoby „A nie różni się od B więcej niż tak bardzo”. Lub, w przykładzie jagnięcia, „liczba włosów po bokach jagnięcia nie różni się o więcej niż X%”.
Czy to ma sens?
źródło
Odpowiedzi:
Jeśli chodzi o testowanie istotności (lub cokolwiek innego, co robi zasadniczo to samo co testowanie istotności), od dawna myślałem, że najlepszym podejściem w większości sytuacji jest prawdopodobnie oszacowanie standardowej wielkości efektu, z 95% przedziałem ufności w tym zakresie wielkość efektu. Nie ma w tym nic nowego - matematycznie można tasować między nimi - jeśli wartość p dla zerowego null wynosi <0,05, wówczas 0 będzie znajdować się poza 95% CI i odwrotnie. Moim zdaniem zaletą tego jest psychologia; to znaczy tworzy istotne informacje, ale ludzie nie mogą ich zobaczyć, gdy zgłaszane są tylko wartości p. Na przykład łatwo zauważyć, że efekt jest szalenie „znaczący”, ale absurdalnie mały; lub „nieistotne”, ale tylko dlatego, że paski błędów są ogromne, podczas gdy szacowany efekt jest mniej więcej taki, jak się spodziewałeś. Można je sparować z surowymi wartościami i ich CI.
Z drugiej strony, myślę, że większym pytaniem jest: „czy testowanie istotności robi to, czego naprawdę chcemy?”. Myślę, że prawdziwym problemem jest to, że dla większości osób analizujących dane (tj. Praktyków, a nie statystyków) testy istotności mogą stać się całością analizy danych. Wydaje mi się, że najważniejsze jest posiadanie zasadnego sposobu myślenia o tym, co dzieje się z naszymi danymi, a testowanie znaczenia hipotezy zerowej jest w najlepszym razie bardzo małą częścią tego. Podam wymyślony przykład (potwierdzam, że jest to karykatura, ale niestety obawiam się, że jest to trochę prawdopodobne):
Mam nadzieję, że to nie wygląda tak źle. Nie chcę kpić z nikogo, ale myślę, że coś takiego zdarza się czasami. W przypadku wystąpienia takiego scenariusza wszyscy możemy zgodzić się, że jest to słaba analiza danych. Problemem nie jest jednak to, że statystyka testu lub wartość p są nieprawidłowe; jakie możemy przyjąć, że dane zostały prawidłowo obsługiwane w tym względzie. Argumentowałbym, że problem polega na tym, że Bob jest zaangażowany w coś, co Cleveland nazwał „analizą danych rote”. Wydaje się wierzyć, że jedynym celem jest uzyskanie odpowiedniej wartości p, i bardzo mało myśli o swoich danych poza realizacją tego celu. Mógł nawet przejść do mojej powyższej sugestii i zgłosić znormalizowany rozmiar efektu z 95% przedziałem ufności, i to nie zmieniłoby tego, co uważam za większy problem (to właśnie miałem na myśli mówiąc „zasadniczo to samo” „w inny sposób). W tym konkretnym przypadku fakt, że dane nie wyglądały tak, jak się spodziewał (tj. Nie były normalne), jest prawdziwą informacją, jest interesującei bardzo możliwe, że ta informacja jest po prostu wyrzucana. Bob tego nie rozpoznaje, ponieważ koncentruje się na testowaniu istotności. Moim zdaniem jest to prawdziwy problem z testowaniem istotności.
Pozwólcie, że zajmę się kilkoma innymi perspektywami, o których wspomniano, i chcę jasno powiedzieć, że nikogo nie krytykuję.
Dla mnie jest to podstawowa kwestia: To, czego naprawdę chcemy, to oparty na zasadach sposób myślenia o tym, co się stało . Co to znaczy w danej sytuacji nie jest wycinane i suszone. Jak przekazać to uczniom na zajęciach metodycznych nie jest ani jasne, ani łatwe. Testowanie istotności ma wiele bezwładności i tradycji. W klasie statystyk jasne jest, czego należy uczyć i jak. Dla studentów i praktyków możliwe jest opracowanie schematu pojęciowego do zrozumienia materiału oraz listy kontrolnej / schematu blokowego (widziałem niektóre!) Do przeprowadzania analiz. Testy istotności mogą oczywiście ewoluować w analizę danych rote, bez nikogo głupiego, leniwego lub złego. To jest problem.
źródło
Dlaczego nalegamy na jakąkolwiek formę testu hipotez w statystykach?
We wspaniałej książce Statystyka jako zasadniczy argument Robert Abelson argumentuje, że analiza statystyczna stanowi część zasadniczego argumentu na dany temat. Mówi, że zamiast być ocenianymi jako hipotezy do odrzucenia lub odrzucenia (lub nawet zaakceptowania!?!), Powinniśmy je ocenić na podstawie tego, co nazywa kryteriami MAGIC:
Wielkość - jak duża jest? Artykulacja - czy jest pełna wyjątków? Czy to jest jasne? Ogólność - jak ogólnie ma to zastosowanie? Ciekawość - czy zależy nam na wyniku? Wiarygodność - czy możemy w to uwierzyć?
Moja recenzja książki na moim blogu
źródło
źródło
Tradycyjne testy hipotez pokazują, czy istnieją statystycznie znaczące dowody na istnienie efektu, podczas gdy często chcemy wiedzieć o istnieniu dowodów na praktycznie znaczący efekt.
Z pewnością możliwe jest utworzenie Bayesowskich „testów hipotez” z minimalnym rozmiarem efektu (IIRC jest tego przykładem w książce Davida MacKaya na temat „Teorii informacji, wnioskowania i algorytmów uczenia się”, przyjrzę się temu, kiedy będę miał chwilę .
Testowanie normalności jest kolejnym dobrym przykładem, zwykle wiemy, że dane nie są tak naprawdę normalnie dystrybuowane, po prostu testujemy, aby sprawdzić, czy istnieją dowody, że nie jest to rozsądne przybliżenie. Lub testując nastawienie monety, wiemy, że jest mało prawdopodobne, aby była całkowicie stronnicza, ponieważ jest asymetryczna.
źródło
Wiele z tego sprowadza się do pytania, które faktycznie zadajesz, jak projektujesz swoje badanie, a nawet co rozumiesz przez równość.
Raz natknąłem się na interesującą małą wkładkę w British Medical Journal, która mówiła o tym, co ludzie interpretują pewne fazy. Okazuje się, że „zawsze” może oznaczać, że coś dzieje się już w 91% przypadków (BMJ VOLUME 333 26 SIERPIEŃ 2006 strona 445). Więc może równy i równoważny (lub w granicach X% dla pewnej wartości X) może być uważany za oznaczający to samo. I zapytajmy komputer o prostą równość, używając R:
Teraz czysty matematyk posługujący się nieskończoną precyzją może powiedzieć, że te 2 wartości nie są równe, ale R mówi, że są i w większości praktycznych przypadków byłyby (gdybyś zaoferował mi (1e + 5 + 1e-50), ale kwota ostatecznie (1e + 5 - 1e-50) Nie odmówiłbym pieniędzy, ponieważ różniły się one od tego, co obiecano).$$ $
Ponadto, jeśli naszą alternatywną hipotezą jest , często zapisujemy null jako chociaż technicznie rzecz biorąc, rzeczywisty null to , ale pracujemy z równością jako null ponieważ jeśli możemy pokazać, że jest większe niż to wiemy również, że jest większe niż wszystkie wartości mniejsze niż . I czy test dwustronny nie jest tak naprawdę tylko 2 testami jednostronnymi? W końcu, czy naprawdę powiedziałbyś, że ale nie chcesz powiedzieć, która strona jest włączona? Po części dlatego istnieje tendencja do używania przedziałów ufności zamiast wartości p, jeśli to możliwe, jeśli mój przedział ufności dlaH 0 : μ = μ 0 H 0 : μ ≤ μ 0 μ μ 0 μ 0 μ ≠ μ 0 μ 0 μ μ μ 0 0 μ μ 0 μ 0 μHa:μ>μ0 H0:μ=μ0 H0:μ≤μ0 μ μ0 μ0 μ≠μ0 μ0 μ μ zawiera więc chociaż mogę nie chcieć wierzyć, że jest dokładnie równe , nie mogę z pewnością powiedzieć, po której stronie leży, co oznacza, że równie dobrze mogą być równe ze względów praktycznych .μ0 μ μ0 μ0 μ
Wiele z tego sprowadza się do postawienia właściwego pytania i zaprojektowania odpowiedniego badania dla tego pytania. Jeśli uzyskasz wystarczającą ilość danych, aby wykazać, że praktycznie bezsensowna różnica jest istotna statystycznie, oznacza to, że zmarnowałeś zasoby na uzyskanie tak dużej ilości danych. Lepiej byłoby zdecydować, jaka byłaby znacząca różnica, i zaprojektować badanie, aby dać ci wystarczającą moc do wykrycia tej różnicy, ale nie mniejszą.
A jeśli naprawdę chcemy podzielić włosy, w jaki sposób określimy, które części jagnięcia są po prawej, a które po lewej? Jeśli zdefiniujemy to za pomocą linii, która z definicji ma taką samą liczbę włosów po każdej stronie, wówczas odpowiedź na powyższe pytanie brzmi „Oczywiście, że tak”.
źródło
Z perspektywy organizacyjnej, czy to rząd z opcjami politycznymi, czy firma, która chce wdrożyć nowy proces / produkt, pomocne może być również zastosowanie prostej analizy kosztów i korzyści. W przeszłości argumentowałem, że (ignorując przyczyny polityczne) biorąc pod uwagę znane koszty nowej inicjatywy, jaki jest próg rentowności dla wielu osób, na które ta inicjatywa musi mieć pozytywny wpływ? Na przykład, jeśli nowa inicjatywa ma na celu zatrudnienie większej liczby osób bezrobotnych, a inicjatywa kosztuje
$100,000
, czy osiąga przynajmniej redukcję transferów dla bezrobotnych$100,000
? Jeśli nie, to efekt inicjatywy nie jest praktycznie znaczący.Dla wyników zdrowotnych znaczenie życia statystycznego nabiera znaczenia. Wynika to z faktu, że świadczenia zdrowotne są naliczane przez całe życie (a zatem świadczenia są korygowane w dół w oparciu o stopę dyskontową ). Zatem zamiast znaczenia statystycznego pojawia się spór o to, jak oszacować wartość życia statystycznego i jaką stopę dyskontową należy zastosować.
źródło