Testowanie równości współczynników z dwóch różnych regresji

44

Wydaje się to być podstawową kwestią, ale właśnie zdałem sobie sprawę, że tak naprawdę nie wiem, jak przetestować równość współczynników z dwóch różnych regresji. Czy ktoś może rzucić na to trochę światła?

Bardziej formalnie, załóżmy, że uruchomiłem następujące dwie regresje: i gdzie odnosi się do macierzy projektowej regresji , a do wektora współczynników w regresji . Zauważ, że i są potencjalnie bardzo różne, z różnymi wymiarami itp. Interesuje mnie na przykład, czy .r 2 = X 2 β 2 + ε 2 X I I β i i X 1 X 2 β 11β 21

y1=X1β1+ϵ1
y2=X2β2+ϵ2
XiiβiiX1X2β^11β^21

Gdyby pochodziły z tej samej regresji, byłoby to banalne. Ale ponieważ pochodzą one z różnych, nie jestem pewien, jak to zrobić. Czy ktoś ma pomysł lub może dać mi jakieś wskazówki?

Mój problem w szczegółach: moją pierwszą intuicją było przyjrzenie się przedziałom ufności, a jeśli się pokrywają, to powiedziałbym, że są zasadniczo takie same. Ta procedura nie ma jednak prawidłowego rozmiaru testu (tzn. Każdy indywidualny przedział ufności ma , powiedzmy, ale wspólne oglądanie ich nie będzie miało tego samego prawdopodobieństwa). Moją „drugą” intuicją było przeprowadzenie normalnego testu t. To znaczy weźα=0.05

β11β21sd(β11)

gdzie jest traktowane jako wartość mojej hipotezy zerowej. Nie bierze to jednak pod uwagę niepewności oszacowania , a odpowiedź może zależeć od kolejności regresji (którą nazywam 1 i 2). β 21β21β21

Moim trzecim pomysłem było zrobienie tego jak w standardowym teście równości dwóch współczynników z tej samej regresji, czyli weź

β11β21sd(β11β21)

Powikłanie wynika z faktu, że oba pochodzą z różnych regresji. Zauważ, że

Var(β11β21)=Var(β11)+Var(β21)2Cov(β11,β21)
ale od pochodzą z różnych regresji, jak mogę uzyskać ?Cov(β11,β21)

To skłoniło mnie do zadania tego pytania tutaj. To musi być standardowa procedura / standardowy test, ale nie mogę znaleźć niczego, co byłoby wystarczająco podobne do tego problemu. Tak więc, jeśli ktokolwiek może wskazać mi prawidłową procedurę, byłbym bardzo wdzięczny!

coffeinjunky
źródło
2
Wydaje się, że dotyczy to modelowania równań strukturalnych / symultanicznych. Jednym ze sposobów rozwiązania tego problemu jest dopasowanie obu równań jednocześnie, np. Z maksymalnym prawdopodobieństwem, a następnie zastosowanie testu ilorazu wiarygodności modelu ograniczonego (model o równych parametrach) w stosunku do modelu nieograniczonego. Praktycznie można to zrobić za pomocą oprogramowania SEM (Mplus, lavaan itp.)
tomka
2
Czy wiesz o pozornie niezwiązanej regresji (SUR)?
Dimitriy V. Masterov
2
Myślę, że pytanie, które podniosłeś, tj. Jak uzyskać cov obu współczynników, zostało rozwiązane przez SEM, który dałby ci macierz var-cov wszystkich współczynników. Następnie możesz użyć testu Walda w sposób zaproponowany przez ciebie zamiast testu LRT. Ponadto możesz również użyć ponownego próbkowania / bootstrap, które mogą być bardziej bezpośrednie.
tomka
3
Tak, masz rację, @tomka. W modelu SUR (który możesz luźno uznać za specjalny przypadek modeli SEM), mogę uzyskać odpowiedni test. Dzięki za skierowanie mnie w tym kierunku! Myślę, że nie myślałem o tym, ponieważ to trochę przypomina strzelanie do wróbla z armaty, ale naprawdę nie mogę wymyślić lepszego sposobu. Jeśli napiszesz odpowiedź, oznaczę ją jako poprawną. W przeciwnym razie napiszę to wkrótce, z krótkim wyjaśnieniem teoretycznym i potencjalnie z przykładem.
coffeinjunky 12.04.14
1
SUR jest dość łatwy do wdrożenia. Oto jeden przykład ze Statą . Z R chcesz systemfit .
Dimitriy V. Masterov

Odpowiedzi:

30

Chociaż nie jest to powszechna analiza, naprawdę jest interesująca. Przyjęta odpowiedź pasuje do sposobu, w jaki zadałeś pytanie, ale przedstawię inną dość dobrze przyjętą technikę, która może, ale nie musi być równoważna (zostawię to lepszym umysłom, aby skomentować to).

Podejście to polega na zastosowaniu następującego testu Z:

Z=β1β2(SEβ1)2+(SEβ2)2

Gdzie jest standardowym błędem .βSEββ

To równanie zapewnia Clogg, CC, Petkova, E., i Haritou, A. (1995). Metody statystyczne do porównywania współczynników regresji między modelami. American Journal of Sociology , 100 (5), 1261-1293. i jest cytowany przez Paternoster, R., Brame, R., Mazerolle, P., i Piquero, A. (1998). Przy użyciu poprawnego testu statystycznego dla równości współczynników regresji. Kryminologia , 36 (4), 859-866. równanie 4, które jest dostępne za darmo z paywall. Dostosowałem formułę Peternostera do używania zamiastb ββbponieważ możliwe jest, że możesz być zainteresowany różnymi DV z jakiegoś okropnego powodu i mojej pamięci Clogga i in. było to, że ich formuła użyła . Pamiętam też krzyżowe sprawdzanie tej formuły względem Cohena, Cohena, Westa i Aikena, a korzenie tego samego myślenia można znaleźć w przedziale ufności różnic między współczynnikami, równanie 2.8.6, str. 46–47.β

russellpierce
źródło
Zobacz także: stats.stackexchange.com/questions/55501/…
russellpierce
Świetna odpowiedź! pytanie: czy dotyczy to również kombinacji liniowych z Modelu 1 i z Modelu 2? Na przykładβ 2 Z = A β 1 - B β 2β1β2
Z=Aβ1Bβ2(SEAβ1)2+(SEBβ2)2
Sibbs Gambling
1
Zauważam też, że artykuł omawia przypadek, w którym jeden model jest zagnieżdżony w drugim, a DV dwóch modeli są takie same. Co jeśli te dwa warunki nie są spełnione? Zamiast tego mam matryce projektowe dwóch modeli są takie same, ale mają różne DV. Czy ta formuła nadal obowiązuje? Wielkie dzięki!
Sibbs Gambling
1
@SibbsGambling: Możesz zadać to pytanie samo w sobie, aby zwrócić większą uwagę.
russellpierce
β1β2
12

W przypadku osób o podobnym pytaniu przedstawię prosty zarys odpowiedzi.

y1y2

(y1y2)=(X1  00  X2)(β1β2)+(e1e2)

Doprowadzi to do powstania macierzy wariancji-kowariancji, która pozwala na sprawdzenie równości dwóch współczynników.

coffeinjunky
źródło
11
Wdrożyłem sposób, który zasugerowałeś i porównałem z powyższym. Odkryłem, że kluczową różnicą jest to, czy założenie, że wariancja błędu jest taka sama, czy nie. Twój sposób zakłada, że ​​wariancja błędu jest taka sama, a powyższa metoda tego nie zakłada.
KH Kim
2
To działało dla mnie dobrze. W Stacie zrobiłem coś takiego: expand =2, generate(indicator); generate y = cond(indicator, y2, y1); regress y i.indicator##c.X, vce(cluster id); Używając klastrowych standardowych kont błędów, ponieważ e1 i e2 nie są niezależne dla tej samej obserwacji po ułożeniu zestawu danych.
wkschwartz
1
  • Var(β1β2)=Var(β1)+Var(β2)

  • covar(β1,β2)0

  • (Clogg, CC, Petkova, E. i Haritou, A. (1995). Statystyczne metody porównywania współczynników regresji między modelami. American Journal of Sociology, 100 (5), 1261-1293.) Przedstawia odpowiedź w szczególnym przypadku zagnieżdżonych równań (tj. aby uzyskać drugie równanie, rozważ pierwsze równanie i dodaj kilka zmiennych objaśniających) Mówią, że jest łatwe do wdrożenia.

  • Jeśli dobrze to rozumiem, w tym szczególnym przypadku można również wdrożyć test Haussmana. Kluczową różnicą jest to, że ich test uznaje za prawdziwe drugie (pełne) równanie, podczas gdy test Haussmana uznaje za prawdziwe pierwsze równanie.

  • Należy zauważyć, że Clogg i in. (1995) nie nadaje się do danych panelowych. Ale ich test został uogólniony przez (Yan, J., Aseltine Jr, RH i Harel, O. (2013). Porównanie współczynników regresji między zagnieżdżonymi modelami liniowymi dla grupowanych danych z uogólnionymi równaniami szacunkowymi. Journal of Educational and Behavioral Statistics, 38 (2), 172–189.) Z pakietem udostępnionym w języku R: geepack Patrz: https://www.jstor.org/stable/pdf/41999419.pdf?refreqid=excelsior%3Aa0a3b20f2bc68223edb59e3254c234be&seq=1

I (dla pakietu R): https://cran.r-project.org/web/packages/geepack/index.html

Alexandre Cazenave-Lacroutz
źródło