Jaki jest prawidłowy sposób testowania znaczących różnic między współczynnikami?

18

Mam nadzieję, że ktoś pomoże mi rozwiązać problem zamieszania. Powiedzmy, że chcę przetestować, czy 2 zestawy współczynników regresji różnią się znacznie od siebie, z następującą konfiguracją:

  • yi=α+βxi+ϵi , z 5 niezależnymi zmiennymi.
  • 2 grupy o mniej więcej równych rozmiarach n1,n2 (choć może się to różnić)
  • Tysiące podobnych regresji zostaną wykonane jednocześnie, więc należy wykonać pewną korektę wielu hipotez.

Jednym z zaproponowanych mi podejść jest zastosowanie testu Z:

Z=b1b2(SEb12+SEb22)

Inną, którą widziałem na tej tablicy, jest wprowadzenie zmiennej zastępczej do grupowania i przepisanie modelu jako:

, gdzie g jest zmienną grupującą, kodowaną jako 0, 1.yi=α+βxi+δ(xigi)+ϵig

Moje pytanie brzmi: w jaki sposób te dwa podejścia są różne (np. Różne założenia, elastyczność)? Czy jedno jest bardziej odpowiednie od drugiego? Podejrzewam, że jest to dość podstawowe, ale wszelkie wyjaśnienia byłyby bardzo mile widziane.

kaszmir
źródło
Uważam, że odpowiedzi i komentarze na podobne pytanie mogą dostarczyć niektórych wyjaśnień, których szukasz.
whuber
Dziękuję, Whuber. Znałem tę odpowiedź. Z dyskusji poniżej przyjętej odpowiedzi (i twoich komentarzy) odniosłem wrażenie, że porównanie współczynników 2 oddzielnych pasowań nie było właściwe. Czy test Z zastosowany do współczynników z osobnych pasowań jest niepoprawny, czy też kodowanie zmiennej fikcyjnej jest po prostu łatwiejsze i zapewnia równoważną odpowiedź?
gotówki
1
Proszę zobaczyć ostatni akapit mojej odpowiedzi („Główne ograniczenie ...”). Test Z jest ważny, zakładając, że są duże (w przeciwnym razie zastosowane w teście), a szacowane odchylenia standardowe S E b i nie różnią się zbytnio od siebie. Żadne z tych podejść nie jest najlepsze, gdy odchylenia standardowe bardzo się różnią (z grubsza, więcej niż stosunek 3: 1). niSEbi
Whuber

Odpowiedzi:

13

Oba podejścia różnią się.

Niech szacowane standardowe błędy dwóch regresji wynoszą i s 2 . Następnie, ponieważ regresja łączona (ze wszystkimi interakcjami współczynnik-manekin) pasuje do tych samych współczynników, ma te same reszty, skąd jej błąd standardowy można obliczyć jakos1s2

s=(n1p)s12+(n2p)s22)n1+n22p.

Liczba parametrów jest równa 6 w przykładzie: pięć nachyleń i przecięcie w każdej regresji.p6

Niech oszacuje parametr w jednej regresji, b 2 oszacuje ten sam parametr w drugiej regresji, i b oszacuje ich różnicę w regresji połączonej. Następnie ich standardowe błędy są powiązane przezb1b2b

SE(b)=s(SE(b1)/s1)2+(SE(b2)/s2)2.

Jeśli nie wykonałeś regresji połączonej, ale masz statystyki tylko dla osobnych regresji, podłącz poprzednie równanie dla . Będzie to mianownik testu t. Oczywiście nie jest to to samo, co mianownik przedstawiony w pytaniu.s

Założeniem regresji połączonej jest to, że wariancje reszt są zasadniczo takie same w obu oddzielnych regresjach. Jeśli tak nie jest, test Z również nie będzie dobry (chyba że rozmiary próbek są duże): chciałbyś skorzystać z testu CABF lub testu t Welch-Satterthwaite.

Whuber
źródło
9

Najbardziej bezpośrednim sposobem sprawdzenia różnicy we współczynniku między dwiema grupami jest włączenie terminu interakcji do regresji, co jest prawie tym, co opisujesz w swoim pytaniu. Model, który chcesz uruchomić, jest następujący:

yi=α+βxi+γgi+δ(xi×gi)+εi

tH0:δ=0gi=0

yi=α+βxi+εi

gi=1

yi=(α+γ)+(β+δ)xi+εi

Thus, when δ is 0, then two groups have the same coefficient.

Matt Blackwell
źródło
Dzięki za poprawienie modelu (uważam, że moja powyższa wersja po prostu wymusza, aby przechwytywanie było takie samo w obu grupach ...). Co więcej, czy byłoby to równoważne z testem Z, który opublikowałem powyżej?
cashoes
If one wanted to test whether an effect is different between more than two groups, would an ANOVA comparing the model yi=α+βxi+γgi+εi and the one shown in this answer, yi=α+βxi+γgi+δ(xi×gi)+εi be appropriate?
miura
@matt-blackwell is this conceptually the same as stratifying the model by each value of g? (ie. b would be the coefficient of x when g=0, and beta+delta when g=1) Although I appreciate that stratifying does not allow statistical comparison.
bobmcpop