Kontekst:
Musiałem przeprowadzić analizę danych dla klienta (pewnego rodzaju prawnika), który był absolutnie początkującym w statystyce. Zapytał mnie, co oznacza termin „znaczenie statystyczne”, i naprawdę próbowałem to wyjaśnić ... ale ponieważ nie jestem dobry w wyjaśnianiu rzeczy, zawiodłem;)
statistical-significance
inference
communication
Daniel Ryback
źródło
źródło
UWAGA: w tej odpowiedzi chcę podkreślić, że istotność statystyczna jest użytecznym narzędziem, ale także różni się od prawdy.
Weź paczkę 52 kart. Jeśli mój klient jest niewinny, jest to normalna paczka kart, 13 serc. Jeśli mój klient kłamie, jest to ustalona paczka, a wszystkie 52 karty to serca.
Dobieram pierwszą kartę i to jest serce. Aha, winny! Cóż, oczywiście zdrowy rozsądek mówi nam, że tak nie jest: istniała jedna na cztery szanse, że tak się stanie, nawet gdyby był niewinny. Nie mamy znaczenia statystycznego po prostu patrząc na jedną kartę.
Więc dobieramy drugą kartę. Kolejne serce Hhhmmm ... zdecydowanie winny! Cóż, w pozostałych 51 kartach było 12 serc, więc nie jest to niemożliwe. Matematyka (13/52 * 12/51 = 0,0588) mówi nam, że dzieje się to w około 6% przypadków, nawet jeśli są niewinne. Dla większości naukowców nadal się to nie liczy.
Dobierz trzecią kartę, kolejne serce! Trzy z rzędu. Szanse na to są (13/52 * 12/51 * 11/50 = 0,01294), więc nieco ponad 1% czasu może się to zdarzyć przypadkowo.
W dużej części nauki 5% stosuje się jako punkt odcięcia. Więc jeśli nie masz innych dowodów niż te trzy karty, masz statystycznie istotny wynik, że jest winny.
Ważną kwestią jest to, że im więcej kart będziesz mógł spojrzeć, tym większe będzie twoje zaufanie do jego winy, co jest innym sposobem na stwierdzenie, że większe staje się znaczenie statystyczne.
UWAGA: nigdy nie masz dowodu jego winy, chyba że możesz spojrzeć na 14 kart. Przy normalnej talii kart teoretycznie możliwe jest wylosowanie 13 serc z rzędu, ale 14 jest niemożliwe. [Poza pedantami: załóżmy, że liczby na kartach nie są widoczne; wszystkie karty są jednym z czterech możliwych kolorów i tyle.]
UWAGA: masz dowód jego niewinności w chwili, gdy wyciągniesz dowolną kartę inną niż serce. Jest tak, ponieważ były tylko dwie możliwe paczki: normalna lub wszystkie serca. Rzeczywistość jest bardziej skomplikowana, a matematyka również bardziej skomplikowana.
Nawiasem mówiąc, jeśli twój klient nie jest graczem karcianym, wypróbuj Monopol: wszyscy rzucają czasem szóstkę; ale jeśli ktoś rzuci podwójnie sześć za każdym razem, gdy będziesz podejrzliwy. Statystyki pozwalają nam tylko ustalić dokładną liczbę podejrzeń.
źródło
Moja rada nie mówi o następujących rzeczach:
Nie przejmuj się prawnikiem. To wykształcona osoba, która spędziła przynajmniej semestr na uniwersyteckiej lekcji statystyki, ale nie pozostała przy nim. To ta sama historia dla praktycznie każdego innego nienaukowca, z którym pracowałem - znaczenie statystyczne nie utrzymuje się . To zbyt nienaturalna koncepcja.
Zachęcam do wyjaśnienia znaczenia statystycznego w kategoriach dowodów . Klasyczni statystycy zakodowali dowody w skali od 0 do 1, gdzie mniejsze wartości stanowią więcej dowodów, a 0,05 to miejsce, w którym linia jest narysowana konwencjonalnie.
źródło
„Istotne statystycznie” oznacza, że coś mogło się wydarzyć losowo, ale jest mało prawdopodobne. Zamiast tego istnieje znacznie większe prawdopodobieństwo, że istnieje jakaś przyczyna. Powinieneś sprecyzować to na przykładzie, który jest odpowiedni dla twojego klienta, ponieważ to wyjaśnienie jest tak abstrakcyjne.
Na przykład, jeśli adwokat Anne wygrała średnio o wiele więcej spraw niż Bill, mogło się to zdarzyć losowo. Jeśli jednak Anne wygrała statystycznie więcej spraw, jest znacznie bardziej prawdopodobne, że jest coś, co mogłoby pomóc wyjaśnić, dlaczego Anne wygrała więcej spraw niż Bill. Nie znamy przyczyny. Być może Anne jest lepszym prawnikiem lub Bill celowo wybiera sprawy, które są trudniejsze.
źródło
Niech to będzie proste i zwięzłe!
Wartość p definiuje się jako prawdopodobieństwo uzyskania wyników tak samo lub bardziej ekstremalnych, jak obserwowane przy założeniu, że wartość null jest prawdziwa. Jeśli wartość p jest wystarczająco mała, wartość null prawdopodobnie nie jest prawdziwa. Dowolnie wybieramy punkt odcięcia dla tego, co uważamy za „wystarczająco małe” (alfa), a dla wszystkich wartości p, które spadają poniżej alfa, odrzucamy zero.
Tak to wyjaśniam mojej klasie statystyk wprowadzających.
źródło
Spróbuję.
Najpierw obliczasz wartość p na podstawie średnich danych i ich zmienności. Im bardziej zmienna, tym mniej prawdopodobne jest uzyskanie małej wartości p. Z drugiej strony, jeśli na przykład porównujesz dwie grupy, im większa różnica między ich średnimi, tym mniejsza wartość p.
Również zmienność danych można nieco zlikwidować, mając więcej danych. Obrazowanie dwóch zestawów danych z tą samą różnicą między dwoma średnimi i taką samą zmiennością. W takim przypadku zestaw o większej wielkości próby będzie miał mniejszą wartość p.
Część testowa sprawdza tylko, czy wartość p jest mniejsza niż pewna liczba. Zwykle ludzie używają .05, ale jest to arbitralny zwyczaj społeczny. Wiele osób uważa, że nie ma sensu używać dowolnej liczby, ale jest to bardzo powszechne ze względów historycznych.
Należy również pamiętać, że fakt, iż w teście istotności stwierdzono różnicę między dwiema grupami, nie oznacza, że wiesz, dlaczego jest taka różnica. Z drugiej strony, jeśli test wykaże, że nie ma znaczącej różnicy, może to być po prostu dlatego, że twoja zmienność była zbyt duża i nie masz wystarczającej ilości danych, aby uzyskać niską wartość p, nie oznacza to, że nie ma rzeczywistej różnicy.
Edytować:
Podsumowując, niższa wartość p oznacza więcej dowodów przeciwko prognozie:
Różnica od przewidywanego wyniku -> Zmniejszona wartość p
Więcej danych -> Zmniejszona wartość p
Większa zmienność -> Wzrost wartości p
Niższa wartość p oznacza więcej dowodów na to, że prognoza jest fałszywa. Każde przewidywanie w historii okazało się fałszywe z dokładnością do jednego miejsca po przecinku.
źródło
Istotność statystyczna jest pojęciem służącym uzasadnieniu przyjęcia lub odrzucenia danej hipotezy. Na podstawie zestawu danych analityk może obliczyć statystyki i określić wielkość różnych zależności między różnymi zmiennymi.
Zadaniem statystyki jest ustalenie, czy dane zawierają wystarczające dowody, abyś mógł wyciągnąć wniosek, że obliczone statystyki lub relacje zaobserwowane między zmiennymi mogą być interpretowane jako prawdziwe stwierdzenia lub jeśli wyniki zaobserwowane w twoich danych próbnych są po prostu przypadkiem. Odbywa się to poprzez określenie pewnej statystyki przykładowej, która wykazywałaby pewne cechy, gdyby hipoteza zerowa była prawdziwa, ale nie, gdyby hipoteza zerowa była fałszywa. Im bardziej odpowiednia statystyka próby wydaje się wykazywać cechy oczekiwane w ramach hipotezy zerowej, tym silniejszy jest dowód statystyczny, że hipoteza zerowa jest poprawna. Podobnie, im mniej wydaje się, że statystyka próby wykazuje cechy oczekiwane zgodnie z hipotezą zerową, tym słabsze są dowody statystyczne, że hipoteza zerowa jest poprawna.
Stopień, w jakim statystyka próby wykazuje cechy oczekiwane poniżej wartości zerowej, jest kwestią stopnia, ale aby dojść do wniosku, że hipoteza zerowa jest akceptowana lub odrzucana, musi istnieć dowolna granica. Jako taka wybierana jest wartość odcięcia. Jeśli statystyka próby mieści się w lub po jednej stronie wartości odcięcia, wówczas mówi się, że jest zgodna z cechami oczekiwanymi w ramach hipotezy zerowej, a zatem wynik można uznać za statystycznie istotny dla danej wartości odcięcia (np. Przy 5% alfa poziom). Jeżeli odpowiednia statystyka próby spadnie na drugą stronę wartości odcięcia, wówczas mówi się, że nie jest zgodna z cechami oczekiwanymi w ramach hipotezy zerowej, a zatem wynik nie jest uważany za statystycznie istotny dla danej wartości odcięcia.
źródło