Istnieje pewna szkoła myślenia, zgodnie z którą najbardziej rozpowszechnionym podejściem do testowania statystycznego jest „hybryda” między dwoma podejściami: podejściem Fishera i podejściem Neymana-Pearsona; te dwa podejścia, jak głosi twierdzenie, są „niezgodne”, a zatem wynikowa „hybryda” jest „niespójnym miszmaszem”. Podam poniżej bibliografię i kilka cytatów, ale na razie wystarczy powiedzieć, że wiele na ten temat napisano w Wikipedii na temat testowania hipotez statystycznych . Tutaj na CV, ten punkt wielokrotnie powtarzał @Michael Lew (patrz tutaj i tutaj ).
Moje pytanie brzmi: dlaczego twierdzi się, że metody F i NP są niezgodne i dlaczego hybryda jest niespójna? Zauważ, że przeczytałem co najmniej sześć antyhybrydowych artykułów (patrz poniżej), ale nadal nie rozumiem problemu lub argumentu. Zauważ też, że nie sugeruję debatowania, czy F lub NP jest lepszym podejściem; nie oferuję też omawiania schematów częstych kontra bayesowskie. Zamiast tego pytanie brzmi: akceptując, że zarówno F, jak i NP są ważnymi i sensownymi podejściami, co jest tak złego w ich hybrydzie?
Oto jak rozumiem sytuację. Podejście Fishera polega na obliczeniu wartości i potraktowaniu jej jako dowodu przeciwko hipotezie zerowej. Im mniejsze , tym bardziej przekonujące dowody. Badacz powinien połączyć te dowody ze swoją podstawową wiedzą, zdecydować, czy jest wystarczająco przekonujący i postępować odpowiednio. (Zauważ, że poglądy Fishera zmieniały się na przestrzeni lat, ale wydaje się, że ostatecznie do tego się zbliża.) Natomiast podejście Neymana-Pearsona polega na wybraniu wyprzedzeniem, a następnie sprawdzeniu, czy; jeśli tak, nazwij to znaczącym i odrzuć hipotezę zerową (tutaj pomijam dużą część historii NP, która nie ma znaczenia dla bieżącej dyskusji). Zobacz także doskonałą odpowiedź @gung w temacie Kiedy używać frameworka Fisher i Neyman-Pearson?
Podejście hybrydowe polega na obliczeniu wartości , zgłoszeniu jej (domyślnie przy założeniu, że im mniejsza, tym lepsza), a także nazwaniu wyników znaczącymi, jeśli (zwykle ) i nieistotnymi inaczej. To ma być niespójne. Jak to może być nieważne robić dwie ważne rzeczy jednocześnie, bije mnie.
Jako szczególnie niespójne antyhybrzydyści postrzegają powszechną praktykę zgłaszania wartości jako , lub (lub nawet ), gdzie zawsze wybierana jest najsilniejsza nierówność. Argumentem wydaje się być to, że (a) siły dowodów nie można właściwie oszacować, ponieważ nie podano dokładnego , oraz (b) ludzie mają tendencję do interpretowania liczby prawej w nierówności jako i postrzegają ją jako błąd typu I oceń i to jest złe. Nie widzę tutaj dużego problemu. Po pierwsze, podanie dokładnego jest z pewnością lepszą praktyką, ale nikomu nie zależy, czy wynosi np. lub , więc zaokrąglanie go w skali logarytmicznej nie jest takie złe (a schodzenie poniżej tak nie ma sensu, zobacz Jak zgłaszać małe wartości p? ). Po drugie, jeśli konsensus ma nazywać wszystko poniżej znaczeniem, wówczas poziom błędu wyniesie i , jak @gung wyjaśnia w Interpretacji wartości p w testowaniu hipotez . Chociaż jest to potencjalnie mylący problem, nie wydaje mi się, że jest bardziej mylący niż inne problemy w testach statystycznych (poza hybrydą). Ponadto każdy czytelnik może mieć na myśli swój ulubiony podczas czytania papieru hybrydowego, aw konsekwencji swój własny poziom błędów.Więc o co chodzi?
Jednym z powodów, dla których chcę zadać to pytanie, jest to, że dosłownie boli mnie, jak bardzo artykuł w Wikipedii na temat testowania hipotez statystycznych poświęcony jest hybrydzie lambastingowej. Po Halpinie i Stamie twierdzi, że winien jest pewien Lindquist (jest nawet duży skan jego podręcznika z „błędami” zaznaczonymi na żółto), i oczywiście artykuł wiki o samym Lindquist zaczyna się od tego samego oskarżenia. Ale może coś mi umknęło.
Bibliografia
Gigerenzer, 1993, Superego, ego i id w rozumowaniu statystycznym - wprowadzili termin „hybrydowy” i nazwał go „niespójnym miszmaszem”
- Zobacz także nowsze ekspozycje Gigerenzera i in .: np. Bezmyślne statystyki (2004) i The Null Ritual. Co zawsze chciałeś wiedzieć o testowaniu istotności, ale bałeś się zapytać (2004).
Cohen, 1994, Ziemia jest okrągła ( ) - to bardzo popularny papier z prawie 3k cytowań, głównie o różnych sprawach, ale przychylnie powołując Gigerenzer
Goodman, 1999, W stronę statystyki medycznej opartej na dowodach. 1: Błąd wartości P.
Hubbard i Bayarri, 2003, Zamieszanie w zakresie miar dowodów ( ) w porównaniu z błędami ( ) w klasycznych testach statystycznych - jeden z bardziej wymownych artykułów na temat „hybrydy”
Halpin i Stam, 2006, Wnioskowanie indukcyjne lub zachowanie indukcyjne: Podejście Fishera i Neymana-Pearsona do testów statystycznych w badaniach psychologicznych (1940–1960) [bezpłatnie po rejestracji] - obwinia podręcznik Lindquista z 1940 r. Za wprowadzenie podejścia „hybrydowego”
@Michael Lew, 2006, Zła praktyka statystyczna w farmakologii (i innych podstawowych dyscyplinach biomedycznych): prawdopodobnie nie znasz P - niezła recenzja i przegląd
cytaty
Gigerenzer: To, co stało się zinstytucjonalizowane jako statystyki wnioskowania w psychologii, to nie statystyki fisheryjskie. Jest to niespójna mieszanka niektórych pomysłów Fishera z jednej strony, a niektórych pomysłów Neymana i ES Pearson z drugiej. Nazywam tę mieszankę „hybrydową logiką” wnioskowania statystycznego.
Goodman: Metoda testu hipotezy [Neyman-Pearson] zaoferowała naukowcom targi Faustian - pozornie automatyczny sposób ograniczenia liczby błędnych wniosków na dłuższą metę, ale jedynie poprzez rezygnację z możliwości pomiaru dowodów [a la Fisher] i oceny prawda z jednego eksperymentu.
Hubbard i Bayarri: Klasyczne testy statystyczne to anonimowa hybryda konkurencyjnych i często sprzecznych podejść [...]. W szczególności powszechne jest niedocenianie niezgodności dowodowej wartości Fishera ze stopniem błędu typu I, , statystycznej ortodoksji Neymana-Pearsona. [...] Jako doskonały przykład oszołomienia wynikającego z [tego] mieszania [...] rozważmy powszechnie niedoceniany fakt, że wartość byłego jest niezgodnaz testem hipotezy Neymana-Pearsona, w którym został osadzony. [...] Na przykład Gibbons i Pratt [...] błędnie stwierdzili: „Zgłaszanie wartości P, dokładnej lub w przedziale, w efekcie pozwala każdej osobie wybrać własny poziom istotności jako maksymalne dopuszczalne prawdopodobieństwo błędu typu I. ”
Halpin & Stam: Tekst Lindquista z 1940 r. Był oryginalnym źródłem hybrydyzacji podejść Fishera i Neymana-Pearsona. [...] zamiast stosować się do jakiejkolwiek konkretnej interpretacji testów statystycznych, psychologowie pozostali ambiwalentni, a właściwie w dużej mierze nieświadomi trudności koncepcyjnych związanych z kontrowersjami Fishera i Neymana-Pearsona.
Lew: Mamy hybrydowe podejście, które nie kontroluje poziomów błędów ani nie pozwala na ocenę siły dowodów.
źródło
Odpowiedzi:
Uważam, że dokumenty, artykuły, posty itp., Które starannie zebrałeś, zawierają wystarczającą ilość informacji i analiz dotyczących tego, gdzie i dlaczego oba podejścia różnią się między sobą. Ale bycie innym nie oznacza bycia niezgodnym .
Problem z „hybrydą” polega na tym, że jest to hybryda, a nie synteza , i dlatego wielu traktuje ją jak hybris , jeśli usprawiedliwisz grę słów.
Nie będąc syntezą, nie próbuje łączyć różnic między tymi dwoma podejściami ani tworzyć jednolitego i wewnętrznie spójnego podejścia, ani utrzymywać obu podejść w arsenale naukowym jako uzupełniających się alternatyw, aby skuteczniej radzić sobie z bardzo złożonymi świat, który staramy się analizować za pomocą statystyk (na szczęście ta ostatnia rzecz dzieje się z drugą wielką wojną domową w tej dziedzinie, częstą-bayesowską).
Uważam, że niezadowolenie z tego wynika z faktu, że rzeczywiście stworzył nieporozumienia w stosowaniu narzędzi statystycznych i interpretacji wyników statystycznych , głównie przez naukowców niebędących statystykami , nieporozumienia, które mogą mieć bardzo poważne i szkodliwe skutki (myślenie o tej dziedzinie medycyny pomaga nadać temu zagadnieniu odpowiedni dramatyczny ton). Uważam, że to niewłaściwe zastosowanie jest powszechnie akceptowane jako fakt - i w tym sensie punkt widzenia „antyhybrydowy” można uznać za powszechny (przynajmniej ze względu na konsekwencje, jakie miał, gdyby nie jego problemy metodologiczne).
Ewolucję tej materii widzę do tej pory jako historyczny wypadek (ale nie mam wartości ani regionu odrzucenia dla mojej hipotezy) z powodu niefortunnej bitwy między założycielami. Fisher i Neyman / Pearson od dziesięcioleci walczyli zaciekle i publicznie o swoje podejście. Wywołało to wrażenie, że jest to sprawa dychotomiczna: jedno podejście musi być „właściwe”, a drugie „złe”.p
Hybryda wyszła, jak sądzę, z uświadomienia sobie, że nie ma tak łatwej odpowiedzi i że istnieją zjawiska w świecie rzeczywistym, do których jedno podejście jest bardziej odpowiednie niż drugie (patrz ten post dla takiego przykładu, według mnie na przynajmniej tam, gdzie podejście fisheryjskie wydaje się bardziej odpowiednie). Ale zamiast trzymać tych dwóch „osobnych i gotowych do działania”, byli raczej zbędni.
Oferuję źródło, które podsumowuje to „uzupełniające się podejście alternatywne”: Spanos, A. (1999). Teoria prawdopodobieństwa i wnioskowanie statystyczne: modelowanie ekonometryczne z danymi obserwacyjnymi. Cambridge University Press. , ch. 14 , zwłaszcza w sekcji 14.5, gdzie po formalnym i wyraźnym przedstawieniu obu podejść autor jest w stanie wyraźnie wskazać na ich różnice, a także argumentować, że można je postrzegać jako uzupełniające się alternatywy.
źródło
Moje własne zdanie jest takie: nie ma nic szczególnie niespójnego w podejściu hybrydowym (tj. Przyjętym). Ponieważ jednak nie byłem pewien, czy może nie rozumiem zasadności argumentów przedstawionych w artykułach antyhybrydowych, z przyjemnością znalazłem dyskusję opublikowaną wraz z tym artykułem:
Niestety dwie odpowiedzi opublikowane jako dyskusja nie zostały sformatowane jako osobne artykuły i dlatego nie można ich poprawnie cytować. Mimo to chciałbym zacytować oba z nich:
Obie odpowiedzi są warte przeczytania. Istnieje także duplika przez pierwotnych autorów, które nie brzmią przekonująco do mnie w ogóle .
źródło
Obawiam się, że prawdziwa odpowiedź na to doskonałe pytanie wymagałaby pełnej gazety. Oto jednak kilka punktów, których nie ma ani w pytaniu, ani w obecnych odpowiedziach.
Poziom błędu „należy” do procedury, ale dowód „należy” do wyników eksperymentalnych. Jest zatem możliwe, że w przypadku procedur wieloetapowych z sekwencyjnymi regułami zatrzymywania uzyskany zostanie wynik z bardzo mocnymi dowodami przeciwko hipotezie zerowej, ale nieistotnym wynikiem testu hipotez. Można to uznać za silną niezgodność.
Jeśli jesteś zainteresowany niezgodnościami, powinieneś zainteresować się podstawowymi filozofiami. Trudność filozoficzna wynika z wyboru między zgodnością z zasadą prawdopodobieństwa a zgodnością z zasadą powtarzalnego pobierania próbek. LP mówi z grubsza, że biorąc pod uwagę model statystyczny, dowody w zbiorze danych odnoszącym się do parametru będącego przedmiotem zainteresowania są całkowicie zawarte w odpowiedniej funkcji prawdopodobieństwa. RSP mówi, że należy preferować testy, które na dłuższą metę dają wskaźniki błędów równe ich wartościom nominalnym.
źródło
Często spotykany (i rzekomo akceptowany) związek (lub lepiej: „hybrydowy”) między tymi dwoma podejściami jest następujący:
Podaj wartość p i sformułuj swoją decyzję na podstawie poziomu :α
Jeśli wynikowa wartość p jest poniżej , można powiedziećα
Jeśli wartość p nie jest wystarczająco mała, można powiedzieć
Oto aspekty Neyman-Pearson:
Aspekty rybackie to:
DODATEK
Chociaż dobrze jest mieć świadomość dyskusji na temat problemów filozoficznych Fishera, NP lub tego hybrydowego podejścia (jak niektórzy nauczają w niemal religijnym szaleństwie), statystyki są o wiele bardziej istotne w walce z:
źródło
Krótka odpowiedź: zastosowanie zerowej (bez różnicy, bez korelacji) hipotezy zerowej bez względu na kontekst. Cała reszta to „niewłaściwe użycie” przez ludzi, którzy stworzyli dla siebie mity na temat tego, co ten proces może osiągnąć. Mity powstają z ludzi próbujących pogodzić swoje (czasem właściwe) wykorzystanie zaufania do autorytetu i heurystyki konsensusu z niemożnością zastosowania procedury do ich problemu.
O ile wiem Gerd Gigerenzer wymyślił termin „hybrydowy”:
Gigerenzer, G (listopad 2004). „ Bezmyślne statystyki ”. The Journal of Socio-Economics 33 (5): 587–606. doi: 10.1016 / j.socec.2004.09.033.
Edycja: I zawsze powinniśmy wspomnieć, ponieważ „hybryda” jest tak śliska i źle zdefiniowana, że użycie zerowej wartości zerowej w celu uzyskania wartości p jest doskonale w porządku do porównania wielkości efektów przy różnych wielkościach próbek. Problemem jest aspekt „testowy”.
Edycja 2: @amoeba Wartość p może być odpowiednia jako statystyka podsumowująca, w tym przypadku hipoteza zerowa jest jedynie arbitralnym punktem orientacyjnym: http://arxiv.org/abs/1311.0081 . Jednak gdy tylko zaczniesz próbować wyciągnąć wnioski lub podjąć decyzję (tj. „Przetestować” hipotezę zerową), przestanie to mieć sens. W przykładzie porównawczym dwóch grup chcemy wiedzieć, jak różne są dwie grupy i jakie są możliwe możliwe wyjaśnienia różnic tej wielkości i rodzaju.
Wartość p można wykorzystać jako statystykę podsumowującą, która mówi nam o wielkości różnicy. Jednak użycie go do „odrzucenia / odrzucenia” różnicy zerowej nie ma żadnego celu, który mogę powiedzieć. Ponadto uważam, że wiele z tych projektów badań, które porównują średnie pomiary żywych istot w jednym punkcie czasowym, jest błędnych. Powinniśmy chcieć obserwować, jak poszczególne instancje systemu zmieniają się w czasie, a następnie opracować proces, który wyjaśnia obserwowany wzorzec (w tym wszelkie różnice grupowe).
źródło
Widzę, że ci, którzy mają więcej wiedzy niż ja, udzielili odpowiedzi, ale myślę, że moja odpowiedź może potencjalnie dodać coś dodatkowego, więc przedstawię to jako perspektywę innego laika.
Czy podejście hybrydowe jest niespójne? Powiedziałbym, że zależy to od tego, czy badacz skończy niespójnie z regułami, z którymi zaczął, a konkretnie z zasadą tak / nie, która wchodzi w grę z ustawieniem wartości alfa.
Niespójny
Zacznij od Neyman-Pearson. Badacz ustawia wartość alfa = 0,05, przeprowadza eksperyment, oblicza p = 0,052. Badacz analizuje tę wartość p i, korzystając z wnioskowania fisheryjskiego (często domyślnie), uważa wynik za wystarczająco niezgodny z hipotezą testową, że nadal będą twierdzić, że „coś” się dzieje. Wynik jest w jakiś sposób „wystarczająco dobry”, mimo że wartość p była większa niż wartość alfa. Często łączy się to z językiem, takim jak „prawie znaczący” lub „zmierzający w kierunku znaczenia” lub innymi sformułowaniami w tym zakresie.
Jednak ustawienie wartości alfa przed uruchomieniem eksperymentu oznacza, że wybrano podejście zachowania indukcyjnego Neymana-Pearsona. Zignorowanie tej wartości alfa po obliczeniu wartości p, a tym samym twierdzenie, że coś jest nadal w jakiś sposób interesujące, podważa całe podejście, od którego zaczęliśmy. Jeśli badacz rozpoczyna ścieżkę A (Neyman-Pearson), ale potem przeskakuje na inną ścieżkę (Fisher), gdy nie spodoba im się ścieżka, na której się znajduje, uważam to za niespójne. Nie są one zgodne z (domyślnymi) regułami, od których zaczęli.
Spójny (ewentualnie)
Zacznij od NP. Badacz ustawia wartość alfa = 0,05, przeprowadza eksperyment, oblicza p = 0,0014. Badacz zauważa, że p <alfa, a zatem odrzuca hipotezę testową (zazwyczaj bez efektu zerowego) i akceptuje hipotezę alternatywną (efekt jest rzeczywisty). W tym momencie badacz, oprócz decyzji o potraktowaniu wyniku jako rzeczywistego efektu (NP), postanawia wnioskować (Fisher), że eksperyment dostarcza bardzo silnych dowodów na to, że efekt jest prawdziwy. Dodali niuans do podejścia, z którym zaczęli, ale nie zaprzeczali ustanowionym zasadom, wybierając na początku wartość alfa.
Podsumowanie
Jeśli zaczniesz od wyboru wartości alfa, zdecydujesz się pójść ścieżką Neymana-Pearsona i postępować zgodnie z zasadami tego podejścia. Jeśli w pewnym momencie naruszą te zasady, wykorzystując wnioskowanie fisheryjskie jako uzasadnienie, wówczas postąpią niespójnie / niespójnie.
Przypuszczam, że można pójść o krok dalej i zadeklarować, że ponieważ można użyć hybrydy w sposób niespójny, dlatego podejście jest z natury niespójne, ale wydaje się, że zagłębia się w aspekty filozoficzne, do których nie uważam się za uprawnionego wystawić opinię na temat.
Czapka dla Michaela Lwa. Artykuł z 2006 roku pomógł mi lepiej zrozumieć te problemy niż jakikolwiek inny zasób.
źródło