Mam nadzieję, że ktoś pomoże mi rozwiązać problem zamieszania. Powiedzmy, że chcę przetestować, czy 2 zestawy współczynników regresji różnią się znacznie od siebie, z następującą konfiguracją:
- , z 5 niezależnymi zmiennymi.
- 2 grupy o mniej więcej równych rozmiarach (choć może się to różnić)
- Tysiące podobnych regresji zostaną wykonane jednocześnie, więc należy wykonać pewną korektę wielu hipotez.
Jednym z zaproponowanych mi podejść jest zastosowanie testu Z:
Inną, którą widziałem na tej tablicy, jest wprowadzenie zmiennej zastępczej do grupowania i przepisanie modelu jako:
, gdzie g jest zmienną grupującą, kodowaną jako 0, 1.
Moje pytanie brzmi: w jaki sposób te dwa podejścia są różne (np. Różne założenia, elastyczność)? Czy jedno jest bardziej odpowiednie od drugiego? Podejrzewam, że jest to dość podstawowe, ale wszelkie wyjaśnienia byłyby bardzo mile widziane.
Odpowiedzi:
Oba podejścia różnią się.
Niech szacowane standardowe błędy dwóch regresji wynoszą i s 2 . Następnie, ponieważ regresja łączona (ze wszystkimi interakcjami współczynnik-manekin) pasuje do tych samych współczynników, ma te same reszty, skąd jej błąd standardowy można obliczyć jakos1 s2
Liczba parametrów jest równa 6 w przykładzie: pięć nachyleń i przecięcie w każdej regresji.p 6
Niech oszacuje parametr w jednej regresji, b 2 oszacuje ten sam parametr w drugiej regresji, i b oszacuje ich różnicę w regresji połączonej. Następnie ich standardowe błędy są powiązane przezb1 b2 b
Jeśli nie wykonałeś regresji połączonej, ale masz statystyki tylko dla osobnych regresji, podłącz poprzednie równanie dla . Będzie to mianownik testu t. Oczywiście nie jest to to samo, co mianownik przedstawiony w pytaniu.s
Założeniem regresji połączonej jest to, że wariancje reszt są zasadniczo takie same w obu oddzielnych regresjach. Jeśli tak nie jest, test Z również nie będzie dobry (chyba że rozmiary próbek są duże): chciałbyś skorzystać z testu CABF lub testu t Welch-Satterthwaite.
źródło
Najbardziej bezpośrednim sposobem sprawdzenia różnicy we współczynniku między dwiema grupami jest włączenie terminu interakcji do regresji, co jest prawie tym, co opisujesz w swoim pytaniu. Model, który chcesz uruchomić, jest następujący:
Thus, whenδ is 0, then two groups have the same coefficient.
źródło