Czy „hybryda” między podejściem Fishera i Neymana-Pearsona do testów statystycznych jest rzeczywiście „niespójnym miszmaszem”?

56

Istnieje pewna szkoła myślenia, zgodnie z którą najbardziej rozpowszechnionym podejściem do testowania statystycznego jest „hybryda” między dwoma podejściami: podejściem Fishera i podejściem Neymana-Pearsona; te dwa podejścia, jak głosi twierdzenie, są „niezgodne”, a zatem wynikowa „hybryda” jest „niespójnym miszmaszem”. Podam poniżej bibliografię i kilka cytatów, ale na razie wystarczy powiedzieć, że wiele na ten temat napisano w Wikipedii na temat testowania hipotez statystycznych . Tutaj na CV, ten punkt wielokrotnie powtarzał @Michael Lew (patrz tutaj i tutaj ).

Moje pytanie brzmi: dlaczego twierdzi się, że metody F i NP są niezgodne i dlaczego hybryda jest niespójna? Zauważ, że przeczytałem co najmniej sześć antyhybrydowych artykułów (patrz poniżej), ale nadal nie rozumiem problemu lub argumentu. Zauważ też, że nie sugeruję debatowania, czy F lub NP jest lepszym podejściem; nie oferuję też omawiania schematów częstych kontra bayesowskie. Zamiast tego pytanie brzmi: akceptując, że zarówno F, jak i NP są ważnymi i sensownymi podejściami, co jest tak złego w ich hybrydzie?


Oto jak rozumiem sytuację. Podejście Fishera polega na obliczeniu wartości i potraktowaniu jej jako dowodu przeciwko hipotezie zerowej. Im mniejsze , tym bardziej przekonujące dowody. Badacz powinien połączyć te dowody ze swoją podstawową wiedzą, zdecydować, czy jest wystarczająco przekonujący i postępować odpowiednio. (Zauważ, że poglądy Fishera zmieniały się na przestrzeni lat, ale wydaje się, że ostatecznie do tego się zbliża.) Natomiast podejście Neymana-Pearsona polega na wybraniu wyprzedzeniem, a następnie sprawdzeniu, czyppαpα; jeśli tak, nazwij to znaczącym i odrzuć hipotezę zerową (tutaj pomijam dużą część historii NP, która nie ma znaczenia dla bieżącej dyskusji). Zobacz także doskonałą odpowiedź @gung w temacie Kiedy używać frameworka Fisher i Neyman-Pearson?

Podejście hybrydowe polega na obliczeniu wartości , zgłoszeniu jej (domyślnie przy założeniu, że im mniejsza, tym lepsza), a także nazwaniu wyników znaczącymi, jeśli (zwykle ) i nieistotnymi inaczej. To ma być niespójne. Jak to może być nieważne robić dwie ważne rzeczy jednocześnie, bije mnie.ppαα=0.05

Jako szczególnie niespójne antyhybrzydyści postrzegają powszechną praktykę zgłaszania wartości jako , lub (lub nawet ), gdzie zawsze wybierana jest najsilniejsza nierówność. Argumentem wydaje się być to, że (a) siły dowodów nie można właściwie oszacować, ponieważ nie podano dokładnego , oraz (b) ludzie mają tendencję do interpretowania liczby prawej w nierówności jako i postrzegają ją jako błąd typu I oceń i to jest złe. Nie widzę tutaj dużego problemu. Po pierwsze, podanie dokładnego jest z pewnością lepszą praktyką, ale nikomu nie zależy, czy wynosi np. lubpp<0.05p<0.01p<0.001p0.0001pαpp0.020.03 , więc zaokrąglanie go w skali logarytmicznej nie jest takie złe (a schodzenie poniżej tak nie ma sensu, zobacz Jak zgłaszać małe wartości p? ). Po drugie, jeśli konsensus ma nazywać wszystko poniżej znaczeniem, wówczas poziom błędu wyniesie i , jak @gung wyjaśnia w Interpretacji wartości p w testowaniu hipotez . Chociaż jest to potencjalnie mylący problem, nie wydaje mi się, że jest bardziej mylący niż inne problemy w testach statystycznych (poza hybrydą). Ponadto każdy czytelnik może mieć na myśli swój ulubiony podczas czytania papieru hybrydowego, aw konsekwencji swój własny poziom błędów.0.00010.05α=0.05pααWięc o co chodzi?

Jednym z powodów, dla których chcę zadać to pytanie, jest to, że dosłownie boli mnie, jak bardzo artykuł w Wikipedii na temat testowania hipotez statystycznych poświęcony jest hybrydzie lambastingowej. Po Halpinie i Stamie twierdzi, że winien jest pewien Lindquist (jest nawet duży skan jego podręcznika z „błędami” zaznaczonymi na żółto), i oczywiście artykuł wiki o samym Lindquist zaczyna się od tego samego oskarżenia. Ale może coś mi umknęło.


Bibliografia

cytaty

Gigerenzer: To, co stało się zinstytucjonalizowane jako statystyki wnioskowania w psychologii, to nie statystyki fisheryjskie. Jest to niespójna mieszanka niektórych pomysłów Fishera z jednej strony, a niektórych pomysłów Neymana i ES Pearson z drugiej. Nazywam tę mieszankę „hybrydową logiką” wnioskowania statystycznego.

Goodman: Metoda testu hipotezy [Neyman-Pearson] zaoferowała naukowcom targi Faustian - pozornie automatyczny sposób ograniczenia liczby błędnych wniosków na dłuższą metę, ale jedynie poprzez rezygnację z możliwości pomiaru dowodów [a la Fisher] i oceny prawda z jednego eksperymentu.

Hubbard i Bayarri: Klasyczne testy statystyczne to anonimowa hybryda konkurencyjnych i często sprzecznych podejść [...]. W szczególności powszechne jest niedocenianie niezgodności dowodowej wartości Fishera ze stopniem błędu typu I, , statystycznej ortodoksji Neymana-Pearsona. [...] Jako doskonały przykład oszołomienia wynikającego z [tego] mieszania [...] rozważmy powszechnie niedoceniany fakt, że wartość byłego jest niezgodnapαpz testem hipotezy Neymana-Pearsona, w którym został osadzony. [...] Na przykład Gibbons i Pratt [...] błędnie stwierdzili: „Zgłaszanie wartości P, dokładnej lub w przedziale, w efekcie pozwala każdej osobie wybrać własny poziom istotności jako maksymalne dopuszczalne prawdopodobieństwo błędu typu I. ”

Halpin & Stam: Tekst Lindquista z 1940 r. Był oryginalnym źródłem hybrydyzacji podejść Fishera i Neymana-Pearsona. [...] zamiast stosować się do jakiejkolwiek konkretnej interpretacji testów statystycznych, psychologowie pozostali ambiwalentni, a właściwie w dużej mierze nieświadomi trudności koncepcyjnych związanych z kontrowersjami Fishera i Neymana-Pearsona.

Lew: Mamy hybrydowe podejście, które nie kontroluje poziomów błędów ani nie pozwala na ocenę siły dowodów.

ameba mówi Przywróć Monikę
źródło
+1 za to dobrze zbadane (nawet jeśli długie) pytanie. Pomogłabym, być może, w dalszym ciągu określać, co dokładnie jest mylące. Czy wystarczy wiedzieć, że dla Fishera w ogóle nie istnieje hipoteza alternatywna, podczas gdy dla NP świat możliwości jest wyczerpany zarówno jako zerowy, jak i alternatywny? Wydaje mi się to dość niespójne, ale niestety cały czas robię hybrydę, ponieważ nie można tego uniknąć, więc jest tak głęboko zakorzeniona.
Momo
2
@Momo: do ciebie pytanie o „co dokładnie jest mylące” - cóż, mylące jest szaleństwo antyhybrydowej retoryki. „Niespójny miszmasz” to mocne słowa, dlatego chciałbym zobaczyć dość złą niekonsekwencję. To, co powiedziałeś o hipotezie alternatywnej, nie brzmi dla mnie jako takie (w przypadku odmiany ogrodowej alternatywą jest oczywiście , i nie widzę dużo miejsca na niekonsekwencje), ale jeśli brakuje mi twojego punktu, to może chciałbyś podać go jako odpowiedź. H0:μ=0H1:μ0
ameba mówi Przywróć Monikę
2
Właśnie przeczytałem Lwa (i zdałem sobie sprawę, że przeczytałem go wcześniej, prawdopodobnie około 2006 r.), Okazało się, że jest całkiem dobry, ale nie sądzę, że reprezentuje to, jak używam wartości p. Moje poziomy istotności - w rzadkich przypadkach w ogóle stosuję testowanie hipotez * - zawsze są z góry, a tam, gdzie mam jakąkolwiek kontrolę nad wielkością próbki, po rozważeniu mocy, pewnym rozważeniu kosztu dwóch rodzajów błędów i tak dalej - zasadniczo Neyman-Pearson. Nadal cytuję wartości p, ale nie w ramach podejścia Fishera .... (ctd)
Glen_b
2
(ctd) ... * (Często odwodzę ludzi od testowania hipotez - tak często ich rzeczywiste pytania są związane z mierzeniem efektów i lepiej na nie odpowiedzieć, konstruując interwały). Konkretny problem podniesiony przez Lew w ramach procedury „hybrydowej” dotyczy czegoś, czego nie robię i miałbym tendencję do ostrzegania ludzi przed zrobieniem tego. Jeśli są ludzie, którzy naprawdę łączą różne podejścia, które on sugeruje, gazeta wydaje się w porządku. Wcześniejsze omówienie znaczenia wartości p i historii podejść wydaje się doskonałe.
Glen_b
1
@Glen_b, historyczny przegląd Lwa jest bardzo ładny i jasny, w pełni się zgadzam. Mój problem dotyczy konkretnie problemu hybrydowego (sekcja „Które podejście jest najczęściej stosowane?”). Z pewnością ludzie, którzy robią to, co tam opisuje, tj. Zgłaszają najsilniejsze z p <0,001, <0,01 lub <0,05; Cały czas widzę to w neuronauce. Rozważ jeden z przypadków, w których korzystasz z testowania. Wybierz np. Alpha = .05 i postępuj zgodnie ze strukturą NP. Kiedy otrzymasz p = 0,00011, czy twoja pewność co do H1 i wybór sformułowania będzie inny niż wtedy, gdy otrzymasz p = 0,049? Jeśli tak, to jest hybrydowy! Jeśli nie, to dlaczego?
ameba mówi Przywróć Monikę

Odpowiedzi:

16

Uważam, że dokumenty, artykuły, posty itp., Które starannie zebrałeś, zawierają wystarczającą ilość informacji i analiz dotyczących tego, gdzie i dlaczego oba podejścia różnią się między sobą. Ale bycie innym nie oznacza bycia niezgodnym .

Problem z „hybrydą” polega na tym, że jest to hybryda, a nie synteza , i dlatego wielu traktuje ją jak hybris , jeśli usprawiedliwisz grę słów.
Nie będąc syntezą, nie próbuje łączyć różnic między tymi dwoma podejściami ani tworzyć jednolitego i wewnętrznie spójnego podejścia, ani utrzymywać obu podejść w arsenale naukowym jako uzupełniających się alternatyw, aby skuteczniej radzić sobie z bardzo złożonymi świat, który staramy się analizować za pomocą statystyk (na szczęście ta ostatnia rzecz dzieje się z drugą wielką wojną domową w tej dziedzinie, częstą-bayesowską).

Uważam, że niezadowolenie z tego wynika z faktu, że rzeczywiście stworzył nieporozumienia w stosowaniu narzędzi statystycznych i interpretacji wyników statystycznych , głównie przez naukowców niebędących statystykami , nieporozumienia, które mogą mieć bardzo poważne i szkodliwe skutki (myślenie o tej dziedzinie medycyny pomaga nadać temu zagadnieniu odpowiedni dramatyczny ton). Uważam, że to niewłaściwe zastosowanie jest powszechnie akceptowane jako fakt - i w tym sensie punkt widzenia „antyhybrydowy” można uznać za powszechny (przynajmniej ze względu na konsekwencje, jakie miał, gdyby nie jego problemy metodologiczne).

Ewolucję tej materii widzę do tej pory jako historyczny wypadek (ale nie mam wartości ani regionu odrzucenia dla mojej hipotezy) z powodu niefortunnej bitwy między założycielami. Fisher i Neyman / Pearson od dziesięcioleci walczyli zaciekle i publicznie o swoje podejście. Wywołało to wrażenie, że jest to sprawa dychotomiczna: jedno podejście musi być „właściwe”, a drugie „złe”.p

Hybryda wyszła, jak sądzę, z uświadomienia sobie, że nie ma tak łatwej odpowiedzi i że istnieją zjawiska w świecie rzeczywistym, do których jedno podejście jest bardziej odpowiednie niż drugie (patrz ten post dla takiego przykładu, według mnie na przynajmniej tam, gdzie podejście fisheryjskie wydaje się bardziej odpowiednie). Ale zamiast trzymać tych dwóch „osobnych i gotowych do działania”, byli raczej zbędni.

Oferuję źródło, które podsumowuje to „uzupełniające się podejście alternatywne”: Spanos, A. (1999). Teoria prawdopodobieństwa i wnioskowanie statystyczne: modelowanie ekonometryczne z danymi obserwacyjnymi. Cambridge University Press. , ch. 14 , zwłaszcza w sekcji 14.5, gdzie po formalnym i wyraźnym przedstawieniu obu podejść autor jest w stanie wyraźnie wskazać na ich różnice, a także argumentować, że można je postrzegać jako uzupełniające się alternatywy.

Alecos Papadopoulos
źródło
6
(+1) Doceniam twoje komentarze i zgadzam się z wieloma z nich. Nie jestem jednak pewien, o czym dokładnie mówisz, gdy mówisz, że hybryda „stworzyła nieporozumienia” (a ponadto, że „jest to powszechnie akceptowane jako fakt”). Czy możesz podać kilka przykładów? Aby być atakiem na hybrydę, powinny to być przykłady nieporozumień, które nie pojawiają się ani w podejściach F, ani NP. Czy masz na myśli potencjalne zamieszanie między i którym wspomniałem w moim pytaniu, czy coś innego? Poza tym, już czytam rozdział 14.5 w Spanos, dzięki. αpα
ameba mówi Przywróć Monikę
6
Oczywistym problemem jest rzeczywiście kwestia . Bardziej subtelny i, jak sądzę, ważniejszy, jest fakt, że hybryda miesza eksploracyjny smak Fishera (który zresztą pozostawia kwestię decyzji badaczowi), z bardziej formalnym podejściem NP. Tak więc badacze podeszli do tej kwestii w duchu rybiego rytuału, ale następnie twierdzili, że podejście NP ma silną „odrzucenie / akceptację”, co w zasadzie daje większą wiarygodność wnioskom. Ciąg dalszypα
Alecos Papadopoulos
6
KONTAKT Dla mnie jest to podejście hybrydowe „jedz swoje ciasto i jedz też”. Na przykład podejście NP bez obliczeń testu mocy powinno być nie do pomyślenia, ale cały czas widzimy test postawiony w ramach NP, ale nie wspomina się o obliczeniach mocy.
Alecos Papadopoulos
Nie na temat, ale ... Skoro cytujesz Arisa Spanosa, zastanawiam się, czy możesz być w stanie odpowiedzieć na to pytanie dotyczące jego metodologii? (Kiedyś zadałem to pytanie bezpośrednio Arisowi Spanosowi, a on uprzejmie włożył trochę wysiłku, aby na nie odpowiedzieć. Niestety, jego odpowiedź była w tym samym języku, co jego papiery, więc niewiele mi pomogło.)
Richard Hardy,
13

Moje własne zdanie jest takie: nie ma nic szczególnie niespójnego w podejściu hybrydowym (tj. Przyjętym). Ponieważ jednak nie byłem pewien, czy może nie rozumiem zasadności argumentów przedstawionych w artykułach antyhybrydowych, z przyjemnością znalazłem dyskusję opublikowaną wraz z tym artykułem:

Niestety dwie odpowiedzi opublikowane jako dyskusja nie zostały sformatowane jako osobne artykuły i dlatego nie można ich poprawnie cytować. Mimo to chciałbym zacytować oba z nich:

Berk: Tematem Sekcji 2 i 3 wydaje się być to, że Fisher nie lubił tego, co robili Neyman i Pearson, a Neyman nie lubił tego, co zrobił Fisher, i dlatego nie powinniśmy robić niczego, co łączy oba podejścia. Tu nie ma ucieczki od przesłanki, ale rozumowanie mi ucieka.

Carlton:autorzy stanowczo twierdzą, że najwięcej zamieszania wynika z małżeństwa idei Fisheriana i Neymana-Pearsona, że ​​takie małżeństwo jest katastrofalnym błędem ze strony współczesnych statystyk [...] [...] Wydaje się, że zamierzają ustalić, że wartości P i Błędy typu I nie mogą współistnieć w tym samym wszechświecie. Nie jest jasne, czy autorzy podali merytoryczny powód, dla którego nie możemy wypowiedzieć „wartości p” i „błędu typu I” w tym samym zdaniu. [...] „Fakt” ich niezgodności [F i NP] jest dla mnie równie zaskakującą wiadomością, jak jestem pewien, że dotyczy tysięcy wykwalifikowanych statystyk czytających ten artykuł. Autorzy zdają się nawet sugerować, że wśród powodów, dla których statystycy powinni teraz rozwieść się, te dwie idee to to, że Fisher i Neyman nie bardzo się lubili (lub siebie nawzajem) filozofie testowania). Zawsze postrzegałem naszą obecną praktykę, która integruje filozofie Fishera i Neymana i pozwala na dyskusję zarówno o wartościach P, jak i błędach typu I - choć z pewnością nie równolegle - jako jeden z największych sukcesów naszej dyscypliny.

Obie odpowiedzi są warte przeczytania. Istnieje także duplika przez pierwotnych autorów, które nie brzmią przekonująco do mnie w ogóle .

ameba mówi Przywróć Monikę
źródło
1
Jedną rzeczą jest współistnienie, drugą rzeczą jest uznanie jednej za drugą. Ale w rzeczywistości ta nić podejścia hybrydowego jest zgodna z duchem „syntezy nie może być w ogóle” - z czym zdecydowanie się nie zgadzam. Ale nie widzę obecnej hybrydy jako udanego małżeństwa.
Alecos Papadopoulos
2
@Livid, dziękuję za komentarze, jest to interesujące, ale chciałbym powstrzymać się od dalszej dyskusji tutaj. Wolę zachęcić cię do opublikowania nowej odpowiedzi, jeśli chcesz. Ale jeśli zdecydujesz się to zrobić, spróbuj skoncentrować się na głównym problemie, a mianowicie: co jest tak złego w „hybrydzie”, w porównaniu do samego Fishera i NP. Wygląda na to, że nienawidzisz całego podejścia do testowania istotności, „hipotezy zerowej” itp., Ale nie o to chodzi w tym pytaniu!
ameba mówi Przywróć Monikę
1
@Livid: Hmmm, czy możesz rzeczywiście wyjaśnić, dlaczego uważasz, że jest to cecha wyróżniająca hybrydę? Co byłoby zerą w czystej Fishera czy w czystej NP? Załóżmy, że masz dwie grupy i chcesz sprawdzić istotną różnicę („zero zero”). Czy nie można podejść do tej sytuacji za pomocą wszystkich trzech podejść: czystego Fishera, czystego NP i hybrydowego?
ameba mówi Przywróć Monikę
2
@Livid, rozumiem twoje argumenty przeciw zerowej wartości zerowej, po prostu uważam, że ten problem jest ortogonalny w stosunku do hybrydy. Muszę odświeżyć w pamięci antyhybrydowe papiery, ale o ile pamiętam, ich krytyka hybrydy wcale nie jest skoncentrowana na zero. Zamiast tego chodzi o połączenie Fishera i NP. Ponownie, jeśli nie zgadzasz się z tym, rozważ opublikowanie odpowiedzi; na razie zostawmy to w tym miejscu.
ameba mówi Przywróć Monikę
2
Uwaga dla siebie: powinienem włączyć do tej odpowiedzi kilka cytatów z tego artykułu: Lehmann 1992, The Fisher, Neyman-Pearson Theories of Testing Hypotheses: One Theory or Two?
ameba mówi Przywróć Monikę
8

Obawiam się, że prawdziwa odpowiedź na to doskonałe pytanie wymagałaby pełnej gazety. Oto jednak kilka punktów, których nie ma ani w pytaniu, ani w obecnych odpowiedziach.

  1. Poziom błędu „należy” do procedury, ale dowód „należy” do wyników eksperymentalnych. Jest zatem możliwe, że w przypadku procedur wieloetapowych z sekwencyjnymi regułami zatrzymywania uzyskany zostanie wynik z bardzo mocnymi dowodami przeciwko hipotezie zerowej, ale nieistotnym wynikiem testu hipotez. Można to uznać za silną niezgodność.

  2. Jeśli jesteś zainteresowany niezgodnościami, powinieneś zainteresować się podstawowymi filozofiami. Trudność filozoficzna wynika z wyboru między zgodnością z zasadą prawdopodobieństwa a zgodnością z zasadą powtarzalnego pobierania próbek. LP mówi z grubsza, że ​​biorąc pod uwagę model statystyczny, dowody w zbiorze danych odnoszącym się do parametru będącego przedmiotem zainteresowania są całkowicie zawarte w odpowiedniej funkcji prawdopodobieństwa. RSP mówi, że należy preferować testy, które na dłuższą metę dają wskaźniki błędów równe ich wartościom nominalnym.

Michael Lew
źródło
3
Monografia JO Bergera i RL Wolperta „The Likelihood Principle” (2. wyd. 1988) jest, moim zdaniem, spokojną, zrównoważoną i dobrą ekspozycją punktu 2.
Alecos Papadopoulos
5
Berger i Wolpert to rzeczywiście dobra i autorytatywna ekspozycja. Wolę jednak bardziej praktyczną i mniej matematyczną książkę „Prawdopodobieństwo” autorstwa AWF Edwards. Myślę, że wciąż w druku. books.google.com.au/books/about/Likelihood.html?id=LL08AAAAIAAJ
Michael Lew
2
@MichaelLew wyjaśnił, że prawidłowe użycie wartości p jest podsumowaniem wielkości efektu. On uczynił wielkie rzeczy pisząc ten papier: arxiv.org/abs/1311.0081
siny
@Livid Artykuł jest interesujący, ale dla nowego czytelnika warto zauważyć, co następuje: główna idea, że ​​p wartości „indeksu” (przypuszczalnie: są w relacji jeden do jednego), funkcji prawdopodobieństwa, jest ogólnie rozumiana jako fałszywa, ponieważ zdarzają się przypadki, w których to samo prawdopodobieństwo odpowiada różnym wartościom p w zależności od schematu próbkowania. Zagadnienie to jest nieco omówione w artykule, ale indeksowanie jest bardzo nietypową pozycją (co niekoniecznie czyni go błędnym).
conjugateprior
8

Często spotykany (i rzekomo akceptowany) związek (lub lepiej: „hybrydowy”) między tymi dwoma podejściami jest następujący:

  1. Ustaw wstępnie określony poziom (0,05 powiedzieć)α
  2. Następnie sprawdź swoją hipotezę, np. vs.H 1 : μ 0Ho:μ=0H1:μ0
  3. Podaj wartość p i sformułuj swoją decyzję na podstawie poziomu :α

    Jeśli wynikowa wartość p jest poniżej , można powiedziećα

    • „Odrzucam ” lubHo
    • „Odrzucam ” na korzyść ”lubH 1HoH1
    • „Jestem pewien, że trzyma”H 1100%(1α)H1

    Jeśli wartość p nie jest wystarczająco mała, można powiedzieć

    • „Nie mogę odrzucić ” lubHo
    • „Nie mogę odrzucić na rzecz ”H 1HoH1

Oto aspekty Neyman-Pearson:

  • Ty coś decydujesz
  • Masz pod ręką alternatywną hipotezę (chociaż jest to wręcz przeciwne do )Ho
  • Znasz współczynnik błędów typu I.

Aspekty rybackie to:

  • Podajesz wartość p. Każdy czytelnik ma zatem możliwość zastosowania własnego poziomu (np. Ścisłe poprawianie wielu testów) w celu podjęcia decyzji
  • Zasadniczo wymagana jest tylko hipoteza zerowa, ponieważ alternatywa jest wręcz przeciwna
  • Nie znasz poziomu błędu typu II. (Ale możesz od razu dostać to dla określonych wartości ).μ0

DODATEK

Chociaż dobrze jest mieć świadomość dyskusji na temat problemów filozoficznych Fishera, NP lub tego hybrydowego podejścia (jak niektórzy nauczają w niemal religijnym szaleństwie), statystyki są o wiele bardziej istotne w walce z:

  • Zadawanie nieinformacyjnych pytań (takich jak pytania binarne tak / nie zamiast ilościowych pytań „ile”, tj. Stosowanie testów zamiast przedziałów ufności)
  • Metody analizy oparte na danych, które prowadzą do stronniczych wyników (regresja krokowa, założenia testowania itp.)
  • Wybór niewłaściwych testów lub metod
  • Błędna interpretacja wyników
  • Korzystanie z klasycznych statystyk dla próbek nieprzypadkowych
Michael M.
źródło
1
(+1) To jest dobry opis hybrydy (i dlaczego dokładnie jest to hybryda), ale nie powiedziałeś wprost, jaka jest twoja ocena tej hybrydy. Czy zgadzasz się, że to, co opisałeś, jest „niespójnym miszmaszem”? Jeśli tak, dlaczego? Czy uważasz, że to rozsądna procedura? Jeśli tak, to czy ludzie twierdzący, że jest to niespójne, mają rację, czy po prostu się mylą?
ameba mówi Przywróć Monikę
1
Często testuję hipotezy dokładnie w ten sposób ... Ale są też inne miszmasze, których nie zaakceptowałbym (np. Nie pokazując wartości p powyżej ) itp.α
Michael M
4

akceptując, że zarówno F, jak i NP są ważnymi i sensownymi podejściami, co jest tak złego w ich hybrydzie?

Krótka odpowiedź: zastosowanie zerowej (bez różnicy, bez korelacji) hipotezy zerowej bez względu na kontekst. Cała reszta to „niewłaściwe użycie” przez ludzi, którzy stworzyli dla siebie mity na temat tego, co ten proces może osiągnąć. Mity powstają z ludzi próbujących pogodzić swoje (czasem właściwe) wykorzystanie zaufania do autorytetu i heurystyki konsensusu z niemożnością zastosowania procedury do ich problemu.

O ile wiem Gerd Gigerenzer wymyślił termin „hybrydowy”:

Zapytałem autora (wybitnego autora podręczników statystycznych, którego książka przeszła wiele wydań i którego imię nie ma znaczenia), dlaczego usunął rozdział o Bayesie, a także niewinne zdanie ze wszystkich kolejnych wydań. „Co sprawiło, że przedstawiłeś statystyki, jakby miał tylko jeden młot, a nie zestaw narzędzi? Dlaczego połączyłeś teorie Fishera i Neymana – Pearsona w niespójną hybrydę, którą odrzuciłby każdy porządny statystyka? ”

Trzeba przyznać, że autor nie próbował zaprzeczyć, że stworzył iluzję, że istnieje tylko jedno narzędzie. Ale dał mi znać, kto był za to winien. Byli trzej winowajcy: koledzy naukowcy, administracja uniwersytetu i wydawca. Argumentował, że większość badaczy nie jest tak naprawdę zainteresowana myśleniem statystycznym, ale jedynie tym, jak opublikować swoje prace [...]

Rytuał zerowy:

  1. Skonfiguruj statystyczną hipotezę zerową „brak średniej różnicy” lub „zerowej korelacji”. Nie określaj prognoz swojej hipotezy badawczej ani żadnych alternatywnych hipotez merytorycznych.

  2. Użyj 5% jako konwencji odrzucania wartości zerowej. Jeśli jest to znaczące, zaakceptuj swoją hipotezę badawczą. Zgłoś wynik jako , lub (w zależności od tego, co nastąpi obok uzyskanej wartości ).p < 0,01 p < 0,001 pp<0.05p<0.01p<0.001p

  3. Zawsze wykonuj tę procedurę.

Gigerenzer, G (listopad 2004). „ Bezmyślne statystyki ”. The Journal of Socio-Economics 33 (5): 587–606. doi: 10.1016 / j.socec.2004.09.033.

Edycja: I zawsze powinniśmy wspomnieć, ponieważ „hybryda” jest tak śliska i źle zdefiniowana, że ​​użycie zerowej wartości zerowej w celu uzyskania wartości p jest doskonale w porządku do porównania wielkości efektów przy różnych wielkościach próbek. Problemem jest aspekt „testowy”.

Edycja 2: @amoeba Wartość p może być odpowiednia jako statystyka podsumowująca, w tym przypadku hipoteza zerowa jest jedynie arbitralnym punktem orientacyjnym: http://arxiv.org/abs/1311.0081 . Jednak gdy tylko zaczniesz próbować wyciągnąć wnioski lub podjąć decyzję (tj. „Przetestować” hipotezę zerową), przestanie to mieć sens. W przykładzie porównawczym dwóch grup chcemy wiedzieć, jak różne są dwie grupy i jakie są możliwe możliwe wyjaśnienia różnic tej wielkości i rodzaju.

Wartość p można wykorzystać jako statystykę podsumowującą, która mówi nam o wielkości różnicy. Jednak użycie go do „odrzucenia / odrzucenia” różnicy zerowej nie ma żadnego celu, który mogę powiedzieć. Ponadto uważam, że wiele z tych projektów badań, które porównują średnie pomiary żywych istot w jednym punkcie czasowym, jest błędnych. Powinniśmy chcieć obserwować, jak poszczególne instancje systemu zmieniają się w czasie, a następnie opracować proces, który wyjaśnia obserwowany wzorzec (w tym wszelkie różnice grupowe).

Wściekły
źródło
2
+1, dziękuję za odpowiedź i link. Wygląda na to, że nie przeczytałem tego konkretnego artykułu, spojrzę. Jak powiedziałem wcześniej, miałem wrażenie, że „zero” jest zagadnieniem prostopadłym do problemu „hybrydy”, ale sądzę, że powinienem ponownie przeczytać pisma Gigerenzera, aby to sprawdzić. Postaram się znaleźć czas w kolejnych dniach. Poza tym: czy mógłbyś wyjaśnić swój ostatni akapit („edycja”)? Czy zrozumiałem poprawnie, że miałeś na myśli, że zerowa wartość zero przy porównywaniu dwóch rozmiarów efektu jest w porządku, ale zerowa wartość zero przy porównywaniu wielkości efektu do zera nie jest w porządku?
ameba mówi Przywróć Monikę
1

Widzę, że ci, którzy mają więcej wiedzy niż ja, udzielili odpowiedzi, ale myślę, że moja odpowiedź może potencjalnie dodać coś dodatkowego, więc przedstawię to jako perspektywę innego laika.

Czy podejście hybrydowe jest niespójne?   Powiedziałbym, że zależy to od tego, czy badacz skończy niespójnie z regułami, z którymi zaczął, a konkretnie z zasadą tak / nie, która wchodzi w grę z ustawieniem wartości alfa.

Niespójny

Zacznij od Neyman-Pearson. Badacz ustawia wartość alfa = 0,05, przeprowadza eksperyment, oblicza p = 0,052. Badacz analizuje tę wartość p i, korzystając z wnioskowania fisheryjskiego (często domyślnie), uważa wynik za wystarczająco niezgodny z hipotezą testową, że nadal będą twierdzić, że „coś” się dzieje. Wynik jest w jakiś sposób „wystarczająco dobry”, mimo że wartość p była większa niż wartość alfa. Często łączy się to z językiem, takim jak „prawie znaczący” lub „zmierzający w kierunku znaczenia” lub innymi sformułowaniami w tym zakresie.

Jednak ustawienie wartości alfa przed uruchomieniem eksperymentu oznacza, że ​​wybrano podejście zachowania indukcyjnego Neymana-Pearsona. Zignorowanie tej wartości alfa po obliczeniu wartości p, a tym samym twierdzenie, że coś jest nadal w jakiś sposób interesujące, podważa całe podejście, od którego zaczęliśmy. Jeśli badacz rozpoczyna ścieżkę A (Neyman-Pearson), ale potem przeskakuje na inną ścieżkę (Fisher), gdy nie spodoba im się ścieżka, na której się znajduje, uważam to za niespójne. Nie są one zgodne z (domyślnymi) regułami, od których zaczęli.

Spójny (ewentualnie)

Zacznij od NP. Badacz ustawia wartość alfa = 0,05, przeprowadza eksperyment, oblicza p = 0,0014. Badacz zauważa, że ​​p <alfa, a zatem odrzuca hipotezę testową (zazwyczaj bez efektu zerowego) i akceptuje hipotezę alternatywną (efekt jest rzeczywisty). W tym momencie badacz, oprócz decyzji o potraktowaniu wyniku jako rzeczywistego efektu (NP), postanawia wnioskować (Fisher), że eksperyment dostarcza bardzo silnych dowodów na to, że efekt jest prawdziwy. Dodali niuans do podejścia, z którym zaczęli, ale nie zaprzeczali ustanowionym zasadom, wybierając na początku wartość alfa.

Podsumowanie

Jeśli zaczniesz od wyboru wartości alfa, zdecydujesz się pójść ścieżką Neymana-Pearsona i postępować zgodnie z zasadami tego podejścia. Jeśli w pewnym momencie naruszą te zasady, wykorzystując wnioskowanie fisheryjskie jako uzasadnienie, wówczas postąpią niespójnie / niespójnie.

Przypuszczam, że można pójść o krok dalej i zadeklarować, że ponieważ można użyć hybrydy w sposób niespójny, dlatego podejście jest z natury niespójne, ale wydaje się, że zagłębia się w aspekty filozoficzne, do których nie uważam się za uprawnionego wystawić opinię na temat.

Czapka dla Michaela Lwa. Artykuł z 2006 roku pomógł mi lepiej zrozumieć te problemy niż jakikolwiek inny zasób.

MichiganWater
źródło