Po zebraniu cennych informacji zwrotnych z poprzednich pytań i dyskusji, wpadłem na następujące pytanie: Załóżmy, że celem jest wykrycie różnic w efektach między dwiema grupami, na przykład mężczyznami i kobietami. Można to zrobić na dwa sposoby:
uruchamiając dwie osobne regresje dla dwóch grup i wykorzystując test Walda, aby odrzucić (lub nie) hipotezę zerową : , gdzie jest współczynnikiem jednej IV w regresji męskiej, a jest współczynnikiem tego samego IV w regresji żeńskiej.b 1 - b 2 = 0 b 1 b 2
połącz obie grupy razem i uruchom wspólny model, włączając manekina płciowego i termin interakcji (IV * genderdummy). Następnie wykrycie efektu grupowego będzie oparte na znaku interakcji i t-teście istotności.
Co jeśli Ho zostanie odrzucony w przypadku (1), tj. Różnica w grupie jest znacząca, ale współczynnik terminu interakcji w przypadku (2) jest statystycznie nieistotny, tj. Różnica w grupie jest nieistotna. Lub odwrotnie, Ho nie jest odrzucany w przypadku (1), a termin interakcji jest istotny w przypadku (2). Skończyłem z tym rezultatem kilka razy i zastanawiałem się, który wynik byłby bardziej wiarygodny i jaki jest powód tej sprzeczności.
Wielkie dzięki!
Odpowiedzi:
Pierwszy model będzie w pełni oddziaływał na płeć ze wszystkimi innymi zmiennymi towarzyszącymi w modelu. Zasadniczo efekt każdej zmiennej towarzyszącej (b2, b3 ... bn). W drugim modelu wpływ płci wpływa tylko na twoje IV. Zakładając, że masz więcej zmiennych towarzyszących niż tylko IV i płeć, może to prowadzić do nieco innych wyników.
Jeśli masz tylko dwie zmienne towarzyszące, istnieją udokumentowane sytuacje, w których różnica w maksymalizacji między testem Walda a testem wskaźnika wiarygodności prowadzi do różnych odpowiedzi (zobacz więcej na wikipedii ).
Z własnego doświadczenia staram się kierować teorią. Jeśli istnieje dominująca teoria, która sugeruje, że płeć wchodzi w interakcje tylko z IV, ale nie z innymi zmiennymi towarzyszącymi, wybrałbym częściową interakcję.
źródło
Za każdym razem, gdy stosowane są dwie różne procedury w celu przetestowania konkretnej hipotezy, wartości p będą różne. Stwierdzenie, że jedno jest znaczące, a drugie nie, może być po prostu podjęciem czarno-białej decyzji na poziomie 0,05. Jeśli jeden test da wartość p 0,03, a drugi 0,07, nie nazwałbym wyników sprzecznymi. Jeśli będziesz tak rygorystyczny w myśleniu o znaczeniu, łatwo jest mieć sytuację (i) lub (ii), gdy ma to znaczenie na linii.
Jak wspomniałem w odpowiedzi na poprzednie pytanie, preferuję poszukiwanie regresji połączonej.
źródło
W drugim przypadku standardowe oprogramowanie sugeruje statystykę t z wartościami t-studenta, podczas gdy w pierwszym przypadku testy Walda mogą mieć dwie opcje. Przy założeniu normalności błędów statystyka Walda jest zgodna z dokładną statystyką Fishera (która jest równoważna t-stat, ponieważ zakłada normalność błędu). Podczas gdy w warunkach asymptotycznej normalności, statystyka Walda podąża za rozkładem Chi2 (który jest analogiczny do t-statystyki po asymptotycznym rozkładzie normalnym) Jaki rozkład przyjmujesz? W zależności od tego twoje wartości p mogą dać różne wyniki.
W podręcznikach przekonasz się, że dla dwustronnych pojedynczych testów (jeden parametr) zarówno statystyki t-studenta, jak i Fishera są równoważne.
Jeśli twoja próbka nie jest duża, to porównanie porównań wartości chi2 i t-stat dałoby różne wyniki dla niektórych. W takim przypadku przyjęcie asymptotycznej dsitrybucji nie byłoby rozsądne. JEŻELI twoja próbka jest raczej niewielka, to założenie, że normalność wydaje się bardziej rozsądna, oznacza to wartości t-stat i Fisher wartości odpowiednio dla przypadku 2 i 1.
źródło