Jaki sens ma porównywanie ze sobą wartości p?

20

Mam dwie populacje (mężczyzn i kobiet), z których każda zawiera próbek. Dla każdej próbki mam dwie właściwości A i B (średnia ocen w pierwszym roku i wynik SAT). Użyłem testu t oddzielnie dla A i B: oba wykryły znaczące różnice między dwiema grupami; A z i B z .p = 0,0081000p=0.008p=0.002

Czy można twierdzić, że właściwość B jest lepiej dyskryminowana (bardziej znacząca) niż właściwość A? A może test t jest po prostu miarą tak lub nie (znaczącą lub nieistotną)?

Aktualizacja : zgodnie z komentarzami tutaj i tym, co przeczytałem na wikipedii , myślę, że odpowiedź powinna brzmieć: porzuć bezwartościową wartość p i zgłoś wielkość efektu . jakieś pomysły?

Dow
źródło
+ proszę wybacz mi, że nie jestem rodzimym językiem angielskim :)
Dow
Żaden problem: jeśli uważasz, że (drobne) zmiany, które wprowadziłem, zmieniły twoje pytanie w jakikolwiek znaczący sposób, prosimy o ich poprawienie.
whuber
Jaki mierzyłeś wynik? (tj. czym się różni, pomiędzy grupami zdefiniowanymi przez A / not A lub B / not B?) Czy jest mierzony na wszystkich 1000 próbkach, czy brakuje niektórych?
gość
3
Zgłoszenie dwóch różnych rozmiarów efektu lub przedziałów ufności dla dwóch różnych rozmiarów efektu byłoby dobrym pomysłem. Łatwiej byłoby to zinterpretować, gdyby wynik w każdym z dwóch zestawów danych był taki sam (prawda?).
Peter Ellis,
2
Możesz bardzo wygodnie pokazać znaczenie statystyczne i wielkość efektu, używając działki leśnej! Prezentacja 95% CI oznacza, że ​​używasz 4 liczb zamiast 2, ale jak wszyscy wspominają, to wystarczająco reprezentuje zakres informacji koniecznych do porównania eksperymentów.
AdamO,

Odpowiedzi:

20

Wiele osób twierdzi, że wartość może być znacząca ( ) lub nie, dlatego nie ma (nigdy) sensu porównywanie między sobą dwóch wartości . To jest źle; w niektórych przypadkach tak jest.p < α ppp<αp

W twoim konkretnym przypadku nie ma absolutnie żadnych wątpliwości, że możesz bezpośrednio porównać wartości . Jeśli wielkość próbki jest stała ( ), wówczas wartości są monotonicznie powiązane z wartościami , które z kolei są monotonicznie powiązane z wielkością efektu mierzoną Cohena . W szczególności . Oznacza to, że twoje wartości są w relacji jeden do jednego z rozmiarem efektu, więc możesz być pewien, że jeśli wartość dla właściwości A jest większa niż dla właściwości B, to rozmiar efektu dla A jest mniejszy niż dla nieruchomości B.n = 1000 p t d d = 2 t / pn=1000ptd ppd=2t/npp

Wierzę, że to odpowiada na twoje pytanie.

Kilka dodatkowych punktów:

  1. Jest to prawdą, biorąc pod uwagę, że rozmiar próbki jest stały. Jeśli otrzymasz dla właściwości A w jednym eksperymencie z jednym rozmiarem próby, a dla właściwości B w innym eksperymencie z innym rozmiarem próbki, trudniej jest je porównać.p = 0,008 p = 0,002np=0.008p=0.002

    • Jeśli pytanie dotyczy konkretnie tego, czy A lub B są lepiej „dyskryminowane” w populacji (tj. Jak dobrze można przewidzieć płeć, patrząc na wartości A lub B?), Powinieneś przyjrzeć się wielkości efektu. W prostych przypadkach znajomość i wystarczy, aby obliczyć wielkość efektu.npn

    • Jeśli pytanie jest bardziej niejasne: jaki eksperyment dostarcza więcej „dowodów” przeciwko zeru? (może to mieć znaczenie, jeśli np. A = B) - wtedy problem staje się skomplikowany i kontrowersyjny, ale powiedziałbym, że wartość z definicji jest skalarnym podsumowaniem dowodów przeciwko zeru, więc im niższa wartość , tym silniejszy jest dowód, nawet jeśli rozmiary próbek są różne.ppp

  2. Powiedzenie, że wielkość efektu dla B jest większa niż dla A, nie oznacza, że ​​jest znacznie większa. Aby dokonać takiego roszczenia, potrzebujesz bezpośredniego porównania między A i B.

  3. Zawsze dobrym pomysłem jest raportowanie (i interpretowanie) wielkości efektów i przedziałów ufności oprócz wartości .p

ameba mówi Przywróć Monikę
źródło
3
Dobre punkty o monotoniczności i dobre końcowe 3 punkty. A teraz, re: zdanie „możesz być pewien”: prawda dla próbki, ale „znacząco tak”? (Tj. Z wiarygodnymi implikacjami dla populacji?) Zajmowałeś się tym krótko w punkcie 2. Mile widziane byłoby pełne potraktowanie tego. Pozdrawiam ~
rolando2
4
To prawda, ale starałem się również wyjaśnić, że w tym przypadku jest to koniecznie słuszne (również to zauważacie). Myślę, że Michelle miała sens, że ogólnie nie powinieneś używać w ten sposób wartości p.
Gung - Przywróć Monikę
1
(-1) Treść tego postu jest poprawna, ale zdanie wstępne („Wiele osób twierdzi, że ... nie ma sensu porównywać między sobą dwóch wartości . To źle”.) Jest zbyt łatwe. źle zinterpretowana jako ogólna rada, podczas gdy w rzeczywistości ma ona zastosowanie tylko w szczególnych przypadkach, takich jak ta tutaj. p
Andrew M,
1
@AndrewM Być może. Zredagowałem początek mojej odpowiedzi. Sprawdź, czy teraz ci się bardziej podoba.
ameba mówi Przywróć Monikę
0

Dziękuję temu, kto właśnie mnie głosował, ponieważ mam teraz zupełnie inną odpowiedź na to pytanie. Odpowiednio usunąłem moją pierwotną odpowiedź, ponieważ jest ona nieprawidłowa z tej perspektywy.

W kontekście tego pytania, które dotyczy tylko pytania „czy A lub B była lepszym dyskryminatorem w moich badaniach”, mamy do czynienia ze spisem powszechnym, a nie próbą. Zatem stosowanie wnioskowania statystycznego, takiego jak te wykorzystywane do tworzenia wartości p, jest nieistotne. Statystyki wnioskowania służą do wnioskowania o szacunkach populacji na podstawie danych uzyskanych z naszej próby. Jeśli nie chcemy uogólniać na populację, metody te są niepotrzebne. (Istnieją pewne specyficzne problemy dotyczące brakujących wartości w spisie, ale nie mają one znaczenia w tej sytuacji).

Nie ma prawdopodobieństwa uzyskania wyniku w populacji. Otrzymaliśmy uzyskany wynik. Dlatego prawdopodobieństwo naszych wyników wynosi 100%. Nie ma potrzeby budowania przedziału ufności - oszacowanie punktowe dla próbki jest dokładne. Po prostu wcale nie musimy niczego szacować.

W konkretnym przypadku „która zmienna działała lepiej z danymi, które posiadam”, wystarczy spojrzeć na wyniki w prostej formie podsumowania. Tabela może być wystarczająca, być może wykres podobny do wykresu pudełkowego.

Michelle
źródło
-1

Dostajesz różnicę w p, ale nie jest jasne, co ona oznacza (czy jest duża, mała, znacząca?)

Może użyć ładowania początkowego:

wybierz (z zastępstwem) ze swoich danych, powtórz testy, oblicz różnicę p's (p_a - p_b), powtórz 100-200 razy

sprawdź, jaka część twojego delta p jest <0 (co oznacza, że ​​p A jest poniżej p B)

Uwaga: Widziałem to zrobione, ale nie jestem ekspertem.

jaskółka oknówka
źródło
1
Ta odpowiedź opisuje jeden ze sposobów porównywania wartości p, ale pierwotne pytanie wydaje się pozostawać bez odpowiedzi: czy procedura ma sens i jak interpretować wyniki?
whuber
-1

Dodano odpowiedź, ponieważ była za długa na komentarz!

Michelle ma dobrą odpowiedź, ale wiele komentarzy pokazuje kilka wspólnych dyskusji na temat wartości p. Podstawowe pomysły są następujące:

1) Mniejsza wartość p nie oznacza, że ​​wynik jest mniej lub bardziej znaczący. Oznacza to po prostu, że szanse na uzyskanie wyniku przynajmniej tak ekstremalnego są mniej prawdopodobne. Istotność to wynik binarny oparty na wybranym poziomie istotności (który wybierasz przed uruchomieniem testu).

2) Wielkość efektu (często standaryzowana do # odchyleń standardowych) jest dobrym sposobem na określenie ilościowe „jak różne” są dwie liczby. Więc jeśli ilość A ma wielkość efektu wynoszącą 0,8 odchylenia standardowego, a ilość B ma wielkość efektu wynoszącą 0,5 odchylenia standardowego, można powiedzieć, że istnieje większa różnica między dwiema grupami w ilości A niż w ilości B. Standardowe pomiary są :

.2 odchylenia standardowe = efekt „mały”

.5 odchylenia standardowe = efekt „średni”

.8 odchylenia standardowe = efekt „duży”

Duncan
źródło
1
Ale przy ustalonej wielkości próbki wartość p jest bezpośrednio monotonicznie związana z wielkością efektu!
ameba mówi Przywróć Monikę