Jak wyjaśniłbyś znaczenie statystyczne osobom bez tła statystycznego?

11

Kontekst:
Musiałem przeprowadzić analizę danych dla klienta (pewnego rodzaju prawnika), który był absolutnie początkującym w statystyce. Zapytał mnie, co oznacza termin „znaczenie statystyczne”, i naprawdę próbowałem to wyjaśnić ... ale ponieważ nie jestem dobry w wyjaśnianiu rzeczy, zawiodłem;)

Daniel Ryback
źródło

Odpowiedzi:

15

Różnice zdarzają się w wyniku przypadku.

Kiedy uważamy, że coś jest statystycznie istotne, uważamy, że różnica jest większa, niż można to racjonalnie wytłumaczyć jako przypadek.

Charles
źródło
Lubię wykorzystywać przypadek, ale uważam, że jest to bardzo mylące pod względem tego, jak powszechnie stosuje się testowanie istotności. Na przykład duża wielkość próby oznacza, że ​​prawie zawsze uzyskasz znaczenie ze względu na „przypadkowe” różnice linii podstawowej. Jest dość powszechnie akceptowane, że wyniki te można nazwać „statystycznie znaczącymi”, mimo że zostały wyjaśnione przez przypadek.
Flask
@Flask: w jakim sensie te podstawowe różnice wynikają z przypadku?
Scortchi - Przywróć Monikę
@Scortchi Jeśli przeprowadzono randomizację, różnice mogą wynikać z przypadku. Zobacz tutaj . Nawet jeśli zostało to wykonane, coś może wprowadzić uprzedzenie później. Zobacz tutaj . Jeśli randomizacja nie została przeprowadzona, może to wynikać z przypadkowości lub stronniczości badacza lub z dowolnej liczby przyczyn.
Flask
1
Przydatna odpowiedź, z tą różnicą, że dotyczy tylko testów różnic.
rolando2
2
+1 Jest to doskonała odpowiedź, ponieważ pozwala uniknąć arkana wartości p, prawdopodobieństw, rozkładów, hipotez zerowych itp., I przechodzi od razu do rzeczy w sposób, który ma zastosowanie do tego, z czym będzie miała do czynienia większość prawników. To, że może nie być wyczerpujące, jest poza tym: szczegóły i warianty można rozwiązać później. Gdybym naciskał, aby to poprawić, główną zmianą, którą wprowadziłbym, byłoby podkreślenie, że przekonania o istotności statystycznej opierają się na danych : odróżniałoby to opis od, powiedzmy, przekonań teologicznych.
whuber
3

UWAGA: w tej odpowiedzi chcę podkreślić, że istotność statystyczna jest użytecznym narzędziem, ale także różni się od prawdy.

Weź paczkę 52 kart. Jeśli mój klient jest niewinny, jest to normalna paczka kart, 13 serc. Jeśli mój klient kłamie, jest to ustalona paczka, a wszystkie 52 karty to serca.

Dobieram pierwszą kartę i to jest serce. Aha, winny! Cóż, oczywiście zdrowy rozsądek mówi nam, że tak nie jest: istniała jedna na cztery szanse, że tak się stanie, nawet gdyby był niewinny. Nie mamy znaczenia statystycznego po prostu patrząc na jedną kartę.

Więc dobieramy drugą kartę. Kolejne serce Hhhmmm ... zdecydowanie winny! Cóż, w pozostałych 51 kartach było 12 serc, więc nie jest to niemożliwe. Matematyka (13/52 * 12/51 = 0,0588) mówi nam, że dzieje się to w około 6% przypadków, nawet jeśli są niewinne. Dla większości naukowców nadal się to nie liczy.

Dobierz trzecią kartę, kolejne serce! Trzy z rzędu. Szanse na to są (13/52 * 12/51 * 11/50 = 0,01294), więc nieco ponad 1% czasu może się to zdarzyć przypadkowo.

W dużej części nauki 5% stosuje się jako punkt odcięcia. Więc jeśli nie masz innych dowodów niż te trzy karty, masz statystycznie istotny wynik, że jest winny.

Ważną kwestią jest to, że im więcej kart będziesz mógł spojrzeć, tym większe będzie twoje zaufanie do jego winy, co jest innym sposobem na stwierdzenie, że większe staje się znaczenie statystyczne.

UWAGA: nigdy nie masz dowodu jego winy, chyba że możesz spojrzeć na 14 kart. Przy normalnej talii kart teoretycznie możliwe jest wylosowanie 13 serc z rzędu, ale 14 jest niemożliwe. [Poza pedantami: załóżmy, że liczby na kartach nie są widoczne; wszystkie karty są jednym z czterech możliwych kolorów i tyle.]

UWAGA: masz dowód jego niewinności w chwili, gdy wyciągniesz dowolną kartę inną niż serce. Jest tak, ponieważ były tylko dwie możliwe paczki: normalna lub wszystkie serca. Rzeczywistość jest bardziej skomplikowana, a matematyka również bardziej skomplikowana.

Nawiasem mówiąc, jeśli twój klient nie jest graczem karcianym, wypróbuj Monopol: wszyscy rzucają czasem szóstkę; ale jeśli ktoś rzuci podwójnie sześć za każdym razem, gdy będziesz podejrzliwy. Statystyki pozwalają nam tylko ustalić dokładną liczbę podejrzeń.

Darren Cook
źródło
3

Moja rada nie mówi o następujących rzeczach:

  1. wartości p,
  2. statystyki testowe,
  3. prawdopodobieństwo, że rzeczy dzieją się tylko przez przypadek.

Nie przejmuj się prawnikiem. To wykształcona osoba, która spędziła przynajmniej semestr na uniwersyteckiej lekcji statystyki, ale nie pozostała przy nim. To ta sama historia dla praktycznie każdego innego nienaukowca, z którym pracowałem - znaczenie statystyczne nie utrzymuje się . To zbyt nienaturalna koncepcja.

Zachęcam do wyjaśnienia znaczenia statystycznego w kategoriach dowodów . Klasyczni statystycy zakodowali dowody w skali od 0 do 1, gdzie mniejsze wartości stanowią więcej dowodów, a 0,05 to miejsce, w którym linia jest narysowana konwencjonalnie.

Ben Ogorek
źródło
imo idea sig. potrafi trzymać się nienaukowców; to, co często postrzegane jest jako nienaturalne, to definicja techniczna, jeśli ludzie posuną się tak daleko. Jeśli chodzi o dowody, to oczywiście chodzi o dowody: pytanie brzmi, w jaki sposób postępuje się z dowodami statystycznie, aby dojść do decyzji o sig.
rolando2
Lubię twój optymizm, ale nie zgadzam się, że dla typowej osoby oczywiste jest, że w statystycznym znaczeniu chodzi o dowody. Myślę, że widzą to jako rodzaj przełącznika podczas odwracania, gdy twój zestaw danych staje się wystarczająco duży, a wszystkie obliczone liczby są w jakiś sposób „prawidłowe”. Zapewniasz, że ważne jest, aby laik wiedział, w jaki sposób dowody są kwantyfikowane, więc przygotuj się na rozmowę o prawdopodobieństwach obliczonych na podstawie hipotezy, która prawdopodobnie nie była prawdą.
Ben Ogorek,
Ach, ale jeśli mówisz o dowodach, wkraczasz do krainy Bayesian.
Arthur B.,
1
Nie sądzę, by Bayesianie posiadali „dowód” (pojęcie), choć z pewnością go sformalizowali. Twierdziłbym, że mała wartość p jest dowodem na coś.
Ben Ogorek,
1

„Istotne statystycznie” oznacza, że ​​coś mogło się wydarzyć losowo, ale jest mało prawdopodobne. Zamiast tego istnieje znacznie większe prawdopodobieństwo, że istnieje jakaś przyczyna. Powinieneś sprecyzować to na przykładzie, który jest odpowiedni dla twojego klienta, ponieważ to wyjaśnienie jest tak abstrakcyjne.

Na przykład, jeśli adwokat Anne wygrała średnio o wiele więcej spraw niż Bill, mogło się to zdarzyć losowo. Jeśli jednak Anne wygrała statystycznie więcej spraw, jest znacznie bardziej prawdopodobne, że jest coś, co mogłoby pomóc wyjaśnić, dlaczego Anne wygrała więcej spraw niż Bill. Nie znamy przyczyny. Być może Anne jest lepszym prawnikiem lub Bill celowo wybiera sprawy, które są trudniejsze.

Jonathan
źródło
0

Niech to będzie proste i zwięzłe!

Wartość p definiuje się jako prawdopodobieństwo uzyskania wyników tak samo lub bardziej ekstremalnych, jak obserwowane przy założeniu, że wartość null jest prawdziwa. Jeśli wartość p jest wystarczająco mała, wartość null prawdopodobnie nie jest prawdziwa. Dowolnie wybieramy punkt odcięcia dla tego, co uważamy za „wystarczająco małe” (alfa), a dla wszystkich wartości p, które spadają poniżej alfa, odrzucamy zero.

Tak to wyjaśniam mojej klasie statystyk wprowadzających.

TrynnaDoStat
źródło
Ale co, jeśli nie masz możliwości wyboru wiarygodnej hipotezy zerowej (tj. Nie ma dwóch identycznych grup ludzi, ale nie masz wystarczających informacji, aby przewidzieć coś lepszego niż średnia 1 = średnia 2)? Wyjaśnienie znaczenia statystycznego bez wspomnienia o ograniczeniach może zaszkodzić.
Flask
0

Spróbuję.

Najpierw obliczasz wartość p na podstawie średnich danych i ich zmienności. Im bardziej zmienna, tym mniej prawdopodobne jest uzyskanie małej wartości p. Z drugiej strony, jeśli na przykład porównujesz dwie grupy, im większa różnica między ich średnimi, tym mniejsza wartość p.

Również zmienność danych można nieco zlikwidować, mając więcej danych. Obrazowanie dwóch zestawów danych z tą samą różnicą między dwoma średnimi i taką samą zmiennością. W takim przypadku zestaw o większej wielkości próby będzie miał mniejszą wartość p.

Część testowa sprawdza tylko, czy wartość p jest mniejsza niż pewna liczba. Zwykle ludzie używają .05, ale jest to arbitralny zwyczaj społeczny. Wiele osób uważa, że ​​nie ma sensu używać dowolnej liczby, ale jest to bardzo powszechne ze względów historycznych.

Należy również pamiętać, że fakt, iż w teście istotności stwierdzono różnicę między dwiema grupami, nie oznacza, że ​​wiesz, dlaczego jest taka różnica. Z drugiej strony, jeśli test wykaże, że nie ma znaczącej różnicy, może to być po prostu dlatego, że twoja zmienność była zbyt duża i nie masz wystarczającej ilości danych, aby uzyskać niską wartość p, nie oznacza to, że nie ma rzeczywistej różnicy.

Edytować:

Podsumowując, niższa wartość p oznacza więcej dowodów przeciwko prognozie:

Różnica od przewidywanego wyniku -> Zmniejszona wartość p

Więcej danych -> Zmniejszona wartość p

Większa zmienność -> Wzrost wartości p

Niższa wartość p oznacza więcej dowodów na to, że prognoza jest fałszywa. Każde przewidywanie w historii okazało się fałszywe z dokładnością do jednego miejsca po przecinku.

Kolba
źródło
0

Istotność statystyczna jest pojęciem służącym uzasadnieniu przyjęcia lub odrzucenia danej hipotezy. Na podstawie zestawu danych analityk może obliczyć statystyki i określić wielkość różnych zależności między różnymi zmiennymi.

Zadaniem statystyki jest ustalenie, czy dane zawierają wystarczające dowody, abyś mógł wyciągnąć wniosek, że obliczone statystyki lub relacje zaobserwowane między zmiennymi mogą być interpretowane jako prawdziwe stwierdzenia lub jeśli wyniki zaobserwowane w twoich danych próbnych są po prostu przypadkiem. Odbywa się to poprzez określenie pewnej statystyki przykładowej, która wykazywałaby pewne cechy, gdyby hipoteza zerowa była prawdziwa, ale nie, gdyby hipoteza zerowa była fałszywa. Im bardziej odpowiednia statystyka próby wydaje się wykazywać cechy oczekiwane w ramach hipotezy zerowej, tym silniejszy jest dowód statystyczny, że hipoteza zerowa jest poprawna. Podobnie, im mniej wydaje się, że statystyka próby wykazuje cechy oczekiwane zgodnie z hipotezą zerową, tym słabsze są dowody statystyczne, że hipoteza zerowa jest poprawna.

Stopień, w jakim statystyka próby wykazuje cechy oczekiwane poniżej wartości zerowej, jest kwestią stopnia, ale aby dojść do wniosku, że hipoteza zerowa jest akceptowana lub odrzucana, musi istnieć dowolna granica. Jako taka wybierana jest wartość odcięcia. Jeśli statystyka próby mieści się w lub po jednej stronie wartości odcięcia, wówczas mówi się, że jest zgodna z cechami oczekiwanymi w ramach hipotezy zerowej, a zatem wynik można uznać za statystycznie istotny dla danej wartości odcięcia (np. Przy 5% alfa poziom). Jeżeli odpowiednia statystyka próby spadnie na drugą stronę wartości odcięcia, wówczas mówi się, że nie jest zgodna z cechami oczekiwanymi w ramach hipotezy zerowej, a zatem wynik nie jest uważany za statystycznie istotny dla danej wartości odcięcia.

tjnel
źródło
Ale jak często tak naprawdę istnieje wcześniej określona populacja, do której wyniki mają się odnosić? Zwykle argumentuje się, aby zastosować wynik poza dokładną badaną populacją, która była unikalną próbą. Jak bardzo ta wyjątkowość przedmiotów / cokolwiek innego jest nieznana w wielu okolicznościach. Wyjątkiem może być kontrola jakości produkcji, ale testowanie istotności jest używany znacznie szerzej niż to. Chciałbym jedynie podkreślić ograniczenia procedury, które zostały pominięte w mojej własnej edukacji.
Flask
@Flask to dobra uwaga. Zredagowałem swoją odpowiedź, aby uczynić ją bardziej ogólną.
tjnel