Mam dwie populacje (mężczyzn i kobiet), z których każda zawiera próbek. Dla każdej próbki mam dwie właściwości A i B (średnia ocen w pierwszym roku i wynik SAT). Użyłem testu t oddzielnie dla A i B: oba wykryły znaczące różnice między dwiema grupami; A z i B z .p = 0,008
Czy można twierdzić, że właściwość B jest lepiej dyskryminowana (bardziej znacząca) niż właściwość A? A może test t jest po prostu miarą tak lub nie (znaczącą lub nieistotną)?
Aktualizacja : zgodnie z komentarzami tutaj i tym, co przeczytałem na wikipedii , myślę, że odpowiedź powinna brzmieć: porzuć bezwartościową wartość p i zgłoś wielkość efektu . jakieś pomysły?
Odpowiedzi:
Wiele osób twierdzi, że wartość może być znacząca ( ) lub nie, dlatego nie ma (nigdy) sensu porównywanie między sobą dwóch wartości . To jest źle; w niektórych przypadkach tak jest.p < α pp p < α p
W twoim konkretnym przypadku nie ma absolutnie żadnych wątpliwości, że możesz bezpośrednio porównać wartości . Jeśli wielkość próbki jest stała ( ), wówczas wartości są monotonicznie powiązane z wartościami , które z kolei są monotonicznie powiązane z wielkością efektu mierzoną Cohena . W szczególności . Oznacza to, że twoje wartości są w relacji jeden do jednego z rozmiarem efektu, więc możesz być pewien, że jeśli wartość dla właściwości A jest większa niż dla właściwości B, to rozmiar efektu dla A jest mniejszy niż dla nieruchomości B.n = 1000 p t d d = 2 t / √p n = 1000 p t re ppre= 2 t / n--√ p p
Wierzę, że to odpowiada na twoje pytanie.
Kilka dodatkowych punktów:
Jest to prawdą, biorąc pod uwagę, że rozmiar próbki jest stały. Jeśli otrzymasz dla właściwości A w jednym eksperymencie z jednym rozmiarem próby, a dla właściwości B w innym eksperymencie z innym rozmiarem próbki, trudniej jest je porównać.p = 0,008 p = 0,002n p = 0,008 p = 0,002
Jeśli pytanie dotyczy konkretnie tego, czy A lub B są lepiej „dyskryminowane” w populacji (tj. Jak dobrze można przewidzieć płeć, patrząc na wartości A lub B?), Powinieneś przyjrzeć się wielkości efektu. W prostych przypadkach znajomość i wystarczy, aby obliczyć wielkość efektu.np n
Jeśli pytanie jest bardziej niejasne: jaki eksperyment dostarcza więcej „dowodów” przeciwko zeru? (może to mieć znaczenie, jeśli np. A = B) - wtedy problem staje się skomplikowany i kontrowersyjny, ale powiedziałbym, że wartość z definicji jest skalarnym podsumowaniem dowodów przeciwko zeru, więc im niższa wartość , tym silniejszy jest dowód, nawet jeśli rozmiary próbek są różne.pp p
Powiedzenie, że wielkość efektu dla B jest większa niż dla A, nie oznacza, że jest znacznie większa. Aby dokonać takiego roszczenia, potrzebujesz bezpośredniego porównania między A i B.
Zawsze dobrym pomysłem jest raportowanie (i interpretowanie) wielkości efektów i przedziałów ufności oprócz wartości .p
źródło
Dziękuję temu, kto właśnie mnie głosował, ponieważ mam teraz zupełnie inną odpowiedź na to pytanie. Odpowiednio usunąłem moją pierwotną odpowiedź, ponieważ jest ona nieprawidłowa z tej perspektywy.
W kontekście tego pytania, które dotyczy tylko pytania „czy A lub B była lepszym dyskryminatorem w moich badaniach”, mamy do czynienia ze spisem powszechnym, a nie próbą. Zatem stosowanie wnioskowania statystycznego, takiego jak te wykorzystywane do tworzenia wartości p, jest nieistotne. Statystyki wnioskowania służą do wnioskowania o szacunkach populacji na podstawie danych uzyskanych z naszej próby. Jeśli nie chcemy uogólniać na populację, metody te są niepotrzebne. (Istnieją pewne specyficzne problemy dotyczące brakujących wartości w spisie, ale nie mają one znaczenia w tej sytuacji).
Nie ma prawdopodobieństwa uzyskania wyniku w populacji. Otrzymaliśmy uzyskany wynik. Dlatego prawdopodobieństwo naszych wyników wynosi 100%. Nie ma potrzeby budowania przedziału ufności - oszacowanie punktowe dla próbki jest dokładne. Po prostu wcale nie musimy niczego szacować.
W konkretnym przypadku „która zmienna działała lepiej z danymi, które posiadam”, wystarczy spojrzeć na wyniki w prostej formie podsumowania. Tabela może być wystarczająca, być może wykres podobny do wykresu pudełkowego.
źródło
Dostajesz różnicę w p, ale nie jest jasne, co ona oznacza (czy jest duża, mała, znacząca?)
Może użyć ładowania początkowego:
wybierz (z zastępstwem) ze swoich danych, powtórz testy, oblicz różnicę p's (p_a - p_b), powtórz 100-200 razy
sprawdź, jaka część twojego delta p jest <0 (co oznacza, że p A jest poniżej p B)
Uwaga: Widziałem to zrobione, ale nie jestem ekspertem.
źródło
Dodano odpowiedź, ponieważ była za długa na komentarz!
Michelle ma dobrą odpowiedź, ale wiele komentarzy pokazuje kilka wspólnych dyskusji na temat wartości p. Podstawowe pomysły są następujące:
1) Mniejsza wartość p nie oznacza, że wynik jest mniej lub bardziej znaczący. Oznacza to po prostu, że szanse na uzyskanie wyniku przynajmniej tak ekstremalnego są mniej prawdopodobne. Istotność to wynik binarny oparty na wybranym poziomie istotności (który wybierasz przed uruchomieniem testu).
2) Wielkość efektu (często standaryzowana do # odchyleń standardowych) jest dobrym sposobem na określenie ilościowe „jak różne” są dwie liczby. Więc jeśli ilość A ma wielkość efektu wynoszącą 0,8 odchylenia standardowego, a ilość B ma wielkość efektu wynoszącą 0,5 odchylenia standardowego, można powiedzieć, że istnieje większa różnica między dwiema grupami w ilości A niż w ilości B. Standardowe pomiary są :
.2 odchylenia standardowe = efekt „mały”
.5 odchylenia standardowe = efekt „średni”
.8 odchylenia standardowe = efekt „duży”
źródło