Model łączony z warunkami interakcji a osobnymi regresjami dla porównania grup

13

Po zebraniu cennych informacji zwrotnych z poprzednich pytań i dyskusji, wpadłem na następujące pytanie: Załóżmy, że celem jest wykrycie różnic w efektach między dwiema grupami, na przykład mężczyznami i kobietami. Można to zrobić na dwa sposoby:

  1. uruchamiając dwie osobne regresje dla dwóch grup i wykorzystując test Walda, aby odrzucić (lub nie) hipotezę zerową : , gdzie jest współczynnikiem jednej IV w regresji męskiej, a jest współczynnikiem tego samego IV w regresji żeńskiej.b 1 - b 2 = 0 b 1 b 2H0b1b2=0b1b2

  2. połącz obie grupy razem i uruchom wspólny model, włączając manekina płciowego i termin interakcji (IV * genderdummy). Następnie wykrycie efektu grupowego będzie oparte na znaku interakcji i t-teście istotności.

Co jeśli Ho zostanie odrzucony w przypadku (1), tj. Różnica w grupie jest znacząca, ale współczynnik terminu interakcji w przypadku (2) jest statystycznie nieistotny, tj. Różnica w grupie jest nieistotna. Lub odwrotnie, Ho nie jest odrzucany w przypadku (1), a termin interakcji jest istotny w przypadku (2). Skończyłem z tym rezultatem kilka razy i zastanawiałem się, który wynik byłby bardziej wiarygodny i jaki jest powód tej sprzeczności.

Wielkie dzięki!

Bill718
źródło
1
różnica między procedurami polega na tym, że zakłada się taką samą wariancję dla obu grup. Oddzielna analiza zakłada różne wariancje.
prawdopodobieństwo prawdopodobieństwa
Wielkie dzięki! Czy zdajesz sobie sprawę z jakichkolwiek odniesień omawiających kwestię wariancji przy porównywaniu różnych modeli?
Bill718,

Odpowiedzi:

7

Pierwszy model będzie w pełni oddziaływał na płeć ze wszystkimi innymi zmiennymi towarzyszącymi w modelu. Zasadniczo efekt każdej zmiennej towarzyszącej (b2, b3 ... bn). W drugim modelu wpływ płci wpływa tylko na twoje IV. Zakładając, że masz więcej zmiennych towarzyszących niż tylko IV i płeć, może to prowadzić do nieco innych wyników.

Jeśli masz tylko dwie zmienne towarzyszące, istnieją udokumentowane sytuacje, w których różnica w maksymalizacji między testem Walda a testem wskaźnika wiarygodności prowadzi do różnych odpowiedzi (zobacz więcej na wikipedii ).

Z własnego doświadczenia staram się kierować teorią. Jeśli istnieje dominująca teoria, która sugeruje, że płeć wchodzi w interakcje tylko z IV, ale nie z innymi zmiennymi towarzyszącymi, wybrałbym częściową interakcję.

mCorey
źródło
Dzięki! Tak, w rzeczywistości istnieją różne zmienne towarzyszące, nie tylko jeden IV, właśnie wspomniałem o jednym IV w pytaniu dla uproszczenia. Chodzi o to, że nie ma silnej teorii, która mogłaby wspierać interakcje między płcią a pewnymi zmiennymi towarzyszącymi, jest to analiza eksploracyjna, więc muszę eksperymentować z wieloma interakcjami i dopasowaniami do modelu; model początkowy zawiera 30 predyktorów ...
Bill718,
@ Bill718 Również osobne modele będą miały inne przechwytywanie, podczas gdy pojedynczy model nie, chyba że podasz sam płeć jako dodatkowe IV (nie tylko interakcję).
Robert Kubrick
5

Za każdym razem, gdy stosowane są dwie różne procedury w celu przetestowania konkretnej hipotezy, wartości p będą różne. Stwierdzenie, że jedno jest znaczące, a drugie nie, może być po prostu podjęciem czarno-białej decyzji na poziomie 0,05. Jeśli jeden test da wartość p 0,03, a drugi 0,07, nie nazwałbym wyników sprzecznymi. Jeśli będziesz tak rygorystyczny w myśleniu o znaczeniu, łatwo jest mieć sytuację (i) lub (ii), gdy ma to znaczenie na linii.

Jak wspomniałem w odpowiedzi na poprzednie pytanie, preferuję poszukiwanie regresji połączonej.

Michael R. Chernick
źródło
Tak, to prawda, że ​​regresja łączona wydaje się działać lepiej, przynajmniej w moim przypadku, i jest to bardzo elastyczna metoda, ponieważ ktoś może spróbować z różnymi interakcjami i modelami. Po prostu chciałem, powiedzmy „statystyczną” ciekawością, powiedzmy , aby dowiedzieć się, co jest przyczyną różnych wyników. Jeśli chodzi o wartości p, słyszałem, że niektórzy ludzie akceptują znaczenie tylko na poziomie = 0,5% lub mniej. Jestem bardziej elastyczny, używając poziomu = 1%, ale duży ból głowy pojawia się, gdy wartości p są zupełnie inne.
Bill718,
Widziałem na przykład badania, w których jeden IV jest bardzo znaczący, gdy stosuje się uporządkowany logit modet, podczas gdy ten sam IV staje się nieistotny, gdy stosuje się OLS. W takim przypadku wyjaśnienie wyników może być nieco trudne. Bardzo dziękuję za komentarze i opinie!
Bill718,
0.070.03
2

W drugim przypadku standardowe oprogramowanie sugeruje statystykę t z wartościami t-studenta, podczas gdy w pierwszym przypadku testy Walda mogą mieć dwie opcje. Przy założeniu normalności błędów statystyka Walda jest zgodna z dokładną statystyką Fishera (która jest równoważna t-stat, ponieważ zakłada normalność błędu). Podczas gdy w warunkach asymptotycznej normalności, statystyka Walda podąża za rozkładem Chi2 (który jest analogiczny do t-statystyki po asymptotycznym rozkładzie normalnym) Jaki rozkład przyjmujesz? W zależności od tego twoje wartości p mogą dać różne wyniki.

W podręcznikach przekonasz się, że dla dwustronnych pojedynczych testów (jeden parametr) zarówno statystyki t-studenta, jak i Fishera są równoważne.

Jeśli twoja próbka nie jest duża, to porównanie porównań wartości chi2 i t-stat dałoby różne wyniki dla niektórych. W takim przypadku przyjęcie asymptotycznej dsitrybucji nie byłoby rozsądne. JEŻELI twoja próbka jest raczej niewielka, to założenie, że normalność wydaje się bardziej rozsądna, oznacza to wartości t-stat i Fisher wartości odpowiednio dla przypadku 2 i 1.

JDav
źródło
Rzeczywiście mam dwie próbki o nierównej wielkości, pierwsza ma 3000 obserwacji, ale druga jest stosunkowo mała, 500 obserwacji. A oprogramowanie zgłasza chi-kwadrat podczas obliczania statystyk Walda. Wygląda więc na to, że jest to przyczyną rozbieżności. Obie próbki są jednak normalnie rozmieszczone, szczególnie w przypadku dużej próbki. Wielkie dzięki!
Bill718,
1
Przepraszam, że was oszukałem, ale nierówne rozmiary podprób nie stanowią problemu. Co więcej, twoja wygląda mi na dużą próbkę. więc obie procedury powinny dać podobne wyniki. Zauważyłem, że @probabilityislogic ma rację. Zastosowanie jednej próbki zbiorczej oznacza równe wariancje rezydualne, co może być źródłem niejednorodności. Nie wiem, jak wdrażasz oddzielną procedurę regresji, ale łatwo jest popełnić błędy, jeśli sam obliczasz statystyki. To sprawia, że ​​regresja zbiorcza jest bezpiecznym i prostym podejściem.
JDav,
1
Aby rozwiązać problem nierównych wariancji między grupami (heterosckedastyczność), spróbuj estymatora wariancji białych (aka Newey-west, Sandwich lub Robust, jeśli używasz staty). To podejście koryguje nieznane typy heteroscedascity.
JDav,
Och, ok, rozumiem, w rzeczywistości obserwacje w próbie pochodzą z różnych regionów kraju, więc jest bardzo możliwe, że chyba istnieją problemy z heterogenicznością!
Bill718,