Interpretacja nieistotnych wyników jako „trendów”

16

Niedawno dwaj różni współpracownicy użyli pewnego rodzaju argumentu na temat różnic między warunkami, które wydają mi się nieprawidłowe. Obaj współpracownicy używają statystyk, ale nie są statystykami. Jestem nowicjuszem w statystyce.

W obu przypadkach argumentowałem, że ponieważ nie było znaczącej różnicy między dwoma warunkami w eksperymencie, błędne było ogólne twierdzenie o tych grupach w odniesieniu do manipulacji. Zauważ, że „ogólne twierdzenie” oznacza coś w rodzaju pisania: „Grupa A używała X częściej niż grupa B”.

Moi współpracownicy odparli: „chociaż nie ma znaczącej różnicy, trend nadal istnieje” i „mimo że nie ma znaczącej różnicy, nadal istnieje różnica”. Dla mnie oba brzmią jak ekwiwalent, tj. Zmienili znaczenie „różnicy” z: „różnicy, która prawdopodobnie będzie wynikiem czegoś innego niż przypadek” (tj. Istotności statystycznej), na „dowolne -zerowa różnica w pomiarze między grupami ”.

Czy odpowiedź moich współpracowników była poprawna? Nie poradziłem sobie z nimi, ponieważ mnie przewyższają.

Amdex
źródło
Znalazłem te artykuły pomocne Wciąż nieistotne
użytkownik20637

Odpowiedzi:

26

To świetne pytanie; odpowiedź zależy w dużej mierze od kontekstu.

Ogólnie rzecz biorąc, powiedziałbym , że masz rację : sformułowanie ogólnego zastrzeżenia, takiego jak „grupa A częściej używała X niż grupy B”, jest mylące. Lepiej byłoby powiedzieć coś takiego

w naszym eksperymencie grupa A używała X częściej niż grupa B, ale jesteśmy bardzo niepewni, jak to się sprawdzi w populacji ogólnej

lub

chociaż grupa A używała X 13% częściej niż grupa B w naszym eksperymencie, nasze oszacowanie różnicy w ogólnej populacji nie jest jasne : prawdopodobne wartości wahają się od A przy użyciu X 5% rzadziej niż grupa B do A przy użyciu X 21% częściej niż grupa B.

lub

grupa A stosowała X 13% częściej niż grupa B, ale różnica nie była istotna statystycznie (95% CI -5% do 21%; p = 0,75)

Z drugiej strony: twoi współpracownicy mają rację, że w tym konkretnym eksperymencie grupa A używała X częściej niż grupa B. Jednak ludzie rzadko dbają o uczestników danego eksperymentu; chcą wiedzieć, w jaki sposób wyniki uogólnią się na większą populację, aw tym przypadku ogólną odpowiedzią jest to, że nie można z całą pewnością stwierdzić, czy losowo wybrana grupa A użyje X częściej czy rzadziej niż losowo wybrana grupa B.

Jeśli dzisiaj musisz dokonać wyboru, czy zastosować leczenie A, czy leczenie B, aby zwiększyć użycie X, przy braku jakichkolwiek innych informacji lub różnic w kosztach itp., To wybór A byłby najlepszym wyborem. Ale jeśli chciałbyś czuć się komfortowo, prawdopodobnie dokonując właściwego wyboru, potrzebowałbyś więcej informacji.

Należy pamiętać, że należy nie mówią „nie ma różnicy pomiędzy grupa A i grupa B w ich wykorzystaniu X” lub „grupa A i grupa B Zastosowanie X taka sama ilość”. Nie dotyczy to żadnego z uczestników eksperymentu (gdzie A użył X 13% więcej) ani w populacji ogólnej; w większości rzeczywistych kontekstów wiesz, że naprawdę musi być jakiś efekt (nieważne jak niewielki) A w porównaniu z B; po prostu nie wiesz, w którą stronę idzie.

Ben Bolker
źródło
5
Piękna odpowiedź, Ben! Zastanawiam się, czy twoja druga przykładowa instrukcja mogłaby zostać zmieniona dla jasności, aby odzwierciedlić istotę pierwszej przykładowej instrukcji: „chociaż grupa A używała X 13% częściej niż grupa B W NASZYM DOŚWIADCZENIU, różnica W UŻYCIU X MIĘDZY GRUPAMI W OGÓLNYM LUDNOŚĆ nie była jasna : prawdopodobny zakres TEGO RÓŻNICY zmienił się od A przy użyciu X 5% rzadziej niż w grupie B do A przy użyciu X 21% częściej niż w grupie B. ”
Isabella Ghement
3
dzięki, częściowo włączony (próbuje zrównoważyć zwięzłość / jasność i dokładność ...)
Ben Bolker
8
+1 Myślę, że wiele osób nie zdaje sobie sprawy, że przy braku dowodów statystycznych zaobserwowane różnice mogą być przeciwieństwem tego, co dzieje się z populacją!
Dave
@Dave: nawet jeśli obecność „dowodów statystycznych” (statystycznie istotna wartość p?), „Zaobserwowane różnice mogą być wręcz przeciwne do tego, co dzieje się z populacją”
boscovich
@boscovich Jasne, mówiłem absolutnie, kiedy robimy statystyki, ale uważam to za nieznaczną wartość p, co oznacza, że ​​naprawdę nie masz pojęcia, co dzieje się z populacją. Przynajmniej przy znacznej wartości p osiągnąłeś pewien ustalony próg dowodów sugerujących, że coś wiesz. Ale zdecydowanie można uzyskać znaczną wartość p, gdy błędnie zidentyfikujemy kierunek. Ten błąd powinien występować od czasu do czasu.
Dave
3

To trudne pytanie!

Po pierwsze, każdy próg, który możesz wybrać, aby określić istotność statystyczną, jest arbitralny. Fakt, że większość ludzi używa wartości , nie czyni jej bardziej poprawną niż jakakolwiek inna. W pewnym sensie zatem powinieneś myśleć o znaczeniu statystycznym raczej jako o „spektrum” niż o czarno-białym obiekcie.5% p

Załóżmy, że mamy hipotezę zerową (na przykład grupy i wykazują tę samą średnią dla zmiennej lub średnia populacji dla zmiennej wynosi poniżej 5). Możesz uznać hipotezę zerową za hipotezę „bez trendu”. Gromadzimy pewne dane, aby sprawdzić, czy możemy obalić (hipoteza zerowa nigdy nie jest „udowodniona”). Na podstawie naszej próbki tworzymy statystyki i ostatecznie uzyskujemy wartość . Krótko mówiąc, wartość jest prawdopodobieństwem, że czysty przypadek przyniesie wyniki równie (lub więcej) ekstremalne niż te, które otrzymaliśmy, zakładając oczywiście, że jest prawdą (tj. Brak trendu).H.0ZAbXY H.0ppH.0

Jeśli otrzymamy „niską” wartość , mówimy, że szansa rzadko daje takie wyniki, dlatego odrzucamy (istnieją statystycznie istotne dowody, że może być fałszywy). Jeśli otrzymamy „wysoką” wartość , wówczas wyniki będą raczej wynikiem szczęścia, a nie faktycznego trendu. Nie twierdzimy, że jest prawdą, ale raczej, że należy przeprowadzić dalsze badania w celu jej odrzucenia.pH.0H.0pH.0

UWAGA: -value od nie oznacza, że jest tam szansa, że nie każdy jest tendencja, ale raczej, że szansa generuje wyniki jak te czasu, który brzmi podobnie, ale jest zupełnie inna rzecz. Na przykład, jeśli twierdzę, że jest coś śmiesznego, na przykład „Potrafię przewidzieć wyniki rzutu kostką na godzinę przed ich wystąpieniem”, przeprowadzamy eksperyment, aby sprawdzić hipotezę zerową „Nie mogę tego zrobić” i otrzymać wartości , nadal masz dobry powód, aby mi nie wierzyć, pomimo istotności statystycznej.p23%23%23%H.0: =0,5% p-

Mając na uwadze te pomysły, wróćmy do głównego pytania. Powiedzmy, że chcemy sprawdzić, czy zwiększenie dawki leku ma wpływ na prawdopodobieństwo pacjentów, którzy przeżyją określoną chorobę. Przeprowadzamy eksperyment, dopasowujemy model regresji logistycznej (biorąc pod uwagę wiele innych zmiennych) i sprawdzamy znaczenie współczynnika związanego ze zmienną „dawka” (nazywając ten współczynnik , sprawdzilibyśmy hipotezę zerową a może W języku angielskim „lek nie ma efektu” lub „lek nie ma albo ma działanie negatywne”.XβH.0: β=0β0

Wyniki eksperymentu dają pozytywną beta, ale test pozostaje na poziomie 0,79. Czy możemy powiedzieć, że istnieje trend? To naprawdę zmniejszyłoby znaczenie „trendu”. Jeśli zaakceptujemy tego rodzaju rzeczy, w zasadzie połowa wszystkich przeprowadzanych przez nas eksperymentów wykazywałaby „trendy”, nawet podczas testowania najbardziej absurdalnych rzeczy.β=0

Podsumowując, uważam, że nieuczciwe jest twierdzenie, że nasz lek robi jakąkolwiek różnicę. Zamiast tego powinniśmy powiedzieć, że nasz lek nie powinien być wprowadzany do produkcji, chyba że zostaną przeprowadzone dalsze testy. Rzeczywiście, powiedziałbym, że powinniśmy nadal uważać na nasze twierdzenia, nawet po osiągnięciu istotności statystycznej. Czy wziąłbyś ten lek, gdyby szansa miała wygenerowania tych wyników? Dlatego tak ważne jest powielanie badań i recenzowanie.4%

Mam nadzieję, że to zbyt pracowite wyjaśnienie pomoże ci uporządkować swoje pomysły. Podsumowując, masz całkowitą rację! Nie powinniśmy wypełniać naszych raportów, niezależnie od tego, czy są to badania, biznes czy cokolwiek innego, dzikimi twierdzeniami popartymi niewielkimi dowodami. Jeśli naprawdę uważasz, że istnieje trend, ale nie osiągnąłeś istotności statystycznej, powtórz eksperyment z większą ilością danych!

David
źródło
1
+1 za wskazanie, że jakikolwiek próg istotności jest arbitralny (i przez domniemanie nie można wnioskować o bezwzględnych twierdzeniach dotyczących ogólnej populacji na podstawie wyników w próbie - otrzymujesz większe prawdopodobieństwo).
Peter - Przywróć Monikę
0

Znaczący efekt oznacza po prostu, że zmierzyłeś nieprawdopodobną anomalię (mało prawdopodobne, jeśli hipoteza zerowa, brak efektu, byłaby prawdziwa). W związku z tym należy wątpić z dużym prawdopodobieństwem (chociaż prawdopodobieństwo to nie jest równe wartości p i zależy również od wcześniejszych przekonań).

W zależności od jakości eksperymentu można zmierzyć ten sam rozmiar efektu , ale może to nie być anomalia (nie jest to mało prawdopodobny wynik, jeśli hipoteza zerowa byłaby prawdziwa).

Kiedy zaobserwujesz efekt, ale nie jest on znaczący, to rzeczywiście (efekt) może nadal tam być, ale nie jest tylko znaczący (pomiary nie wskazują, że hipoteza zerowa powinna być wątpliwa / odrzucana z dużym prawdopodobieństwem). Oznacza to, że powinieneś ulepszyć eksperyment, zebrać więcej danych, aby być bardziej pewnym.

Dlatego zamiast efektu dychotomii w porównaniu do braku efektu powinieneś wybrać następujące cztery kategorie:

cztery kategorie

Zdjęcie z https://en.wikipedia.org/wiki/Equivalence_test wyjaśniające procedurę dwustronnych testów T (TOST)

Wygląda na to, że należysz do kategorii D. Test nie jest jednoznaczny. Twoi współpracownicy mogą się mylić, twierdząc, że jest jakiś efekt. Jednak równie błędne jest twierdzenie, że nie ma efektu!

Sextus Empiricus
źródło
p
@ David, całkowicie się z tobą zgadzam, że wartość p jest bardziej precyzyjnie miarą „prawdopodobieństwa, że ​​popełnimy błąd , że hipoteza zerowa jest prawdziwa” (lub prawdopodobieństwa zobaczenia tak ekstremalnych wyników), i nie wyrażaj bezpośrednio „prawdopodobieństwo, że hipoteza zerowa jest błędna”. Uważam jednak, że wartość p nie powinna być stosowana w tym „oficjalnym” znaczeniu. Wartość p służy do wyrażenia wątpliwości w hipotezie zerowej, aby wyrazić, że wyniki wskazują na anomalię, a anomalie powinny sprawić, że zwątpimy w zero ...
Sextus Empiricus
... w twoim przypadku, kiedy pokazujesz, że podważasz efekt zerowy (podważasz pomysł, że nie można przewidzieć monet), dostarczając rzadki przypadek (tak jak dama degustująca herbatę), wtedy naprawdę powinniśmy mieć wątpliwości co do zerowego hipoteza. W praktyce musielibyśmy w tym celu ustawić odpowiednią wartość p (ponieważ rzeczywiście można rzucić wyzwanie zeru przez przypadek), a ja nie użyłbym poziomu 1%. Wysokie prawdopodobieństwo wątpienia w wartość zerową nie powinno być utożsamiane jeden do jednego z wartością p (ponieważ prawdopodobieństwo to jest bardziej koncepcją bayesowską).
Sextus Empiricus
Dostosowałem tekst, aby usunąć tę błędną interpretację.
Sextus Empiricus
0

Wygląda na to, że kłócą się o wartość p kontra definicja „trendu”.

Jeśli wykreślisz dane na wykresie przebiegu, możesz zobaczyć trend ... zestaw punktów wykresu, które pokazują trend rosnący lub malejący w czasie.

Ale kiedy robisz statystyki na jego temat ... wartość p sugeruje, że nie jest znacząca.

Aby wartość p miała niewielkie znaczenie, ale aby zobaczyć trend / przebieg w serii danych ... musiałby to być bardzo niewielki trend.

Gdyby tak było, wróciłbym do wartości p .. IE: ok, tak, w danych jest trend / przebieg .. ale jest to tak niewielkie i nieistotne, że statystyki sugerują, że nie warto kontynuować Analiza.

Nieznaczny trend to coś, co można przypisać pewnego rodzaju stronniczości w badaniach ... może coś bardzo niewielkiego ... coś, co może być tylko jednorazowym wystąpieniem w eksperymencie, który stworzył niewielki trend.

Gdybym był kierownikiem grupy, powiedziałbym im, aby przestali marnować czas i pieniądze na wbijanie się w nieznaczne trendy i szukanie bardziej znaczących.

bla bla
źródło
0

Wygląda na to, że w tym przypadku nie mają uzasadnienia dla swojego roszczenia i po prostu nadużywają statystyk, aby dojść do wniosku, który już mieli. Ale zdarzają się sytuacje, w których nie można być tak surowym przy odcięciach p-val. To (jak używać istotności statystycznej i wartości granicznych pval) jest szaloną debatą, odkąd Fisher, Neyman i Pearson po raz pierwszy położyli podwaliny pod testy statystyczne.

Załóżmy, że budujesz model i decydujesz, które zmienne mają zostać uwzględnione. Gromadzisz trochę danych, aby przeprowadzić wstępne badanie potencjalnych zmiennych. Teraz jest jedna zmienna, która naprawdę interesuje zespół biznesowy, ale twoje wstępne badanie pokazuje, że zmienna nie jest istotna statystycznie. Jednak „kierunek” zmiennej odpowiada oczekiwaniom zespołu biznesowego i chociaż nie osiągnął progu istotności, był bliski. Być może podejrzewano, że ma dodatnią korelację z wynikiem i uzyskano współczynnik beta, który był dodatni, ale wartość pval była nieco powyżej progu 0,05.

W takim przypadku możesz go dołączyć. Jest to rodzaj nieformalnej statystyki bayesowskiej - istniało silne wcześniejsze przekonanie, że jest to użyteczna zmienna, a wstępne badanie jej wykazało pewne dowody w tym kierunku (ale nie istotne statystycznie!), Więc dajesz temu wątpliwość i zachowaj to w modelu. Być może przy większej ilości danych będzie bardziej oczywiste, jaki związek ma z wynikiem zainteresowania.

Innym przykładem może być budowanie nowego modelu i spojrzenie na zmienne użyte w poprzednim modelu - możesz nadal dołączać zmienną marginalną (taką, która jest na granicy istotności), aby zachować ciągłość z modelu modelować.

Zasadniczo, w zależności od tego, co robisz, istnieją powody, by być coraz bardziej surowym wobec tego rodzaju rzeczy.

Z drugiej strony należy również pamiętać, że znaczenie statystyczne nie musi oznaczać znaczenia praktycznego! Pamiętaj, że sednem tego wszystkiego jest wielkość próby. Zbierz wystarczającą ilość danych, a standardowy błąd oszacowania zmniejszy się do zera. To zrobi jakąkolwiek różnicę, bez względu na to, jak małe, „statystycznie znaczące”, nawet jeśli ta różnica nie może być niczym w prawdziwym świecie. Załóżmy na przykład, że prawdopodobieństwo wylądowania konkretnej monety na głowach wynosi 0,500000000000001. Oznacza to, że teoretycznie można zaprojektować eksperyment, w którym stwierdzono, że moneta jest niesprawiedliwa, ale pod każdym względem moneta może być traktowana jako moneta uczciwa.

eps
źródło