Czy powinienem uruchamiać osobne regresje dla każdej społeczności, czy może społeczność może po prostu być zmienną kontrolującą w modelu zagregowanym?

11

Korzystam z modelu OLS z ciągłą zmienną indeksu aktywów jako DV. Moje dane są agregowane z trzech podobnych społeczności znajdujących się blisko siebie. Mimo to uważałem, że ważne jest, aby używać społeczności jako zmiennej kontrolującej. Jak się okazuje, społeczność jest znacząca na poziomie 1% (wynik t -4,52). Społeczność jest zmienną nominalną / kategorialną zakodowaną jako 1,2,3 dla 1 z 3 różnych społeczności.

Moje pytanie brzmi, czy ten wysoki stopień znaczenia oznacza, że ​​powinienem robić regresje w społecznościach indywidualnie, a nie jako agregację. W przeciwnym razie, czy używanie społeczności jako zmiennej sterującej zasadniczo to robi?

Cadamt
źródło
Czy miałoby sens zastosowanie modelu hierarchicznego ze społecznością jako efektu losowego? Społeczności nie są twoją główną troską, prawda? Korzystając z modelu hierarchicznego, dzielisz siłę.
Wayne

Odpowiedzi:

14

Pytanie sugeruje porównanie trzech powiązanych modeli. Aby wyjaśnić porównanie, niech będzie zmienną zależną, niech będzie bieżącym kodem wspólnoty i zdefiniuj i X 2 jako wskaźniki odpowiednio społeczności 1 i 2. (Oznacza to, że X 1 = 1 dla społeczności 1 i X 1 = 0 dla społeczności 2 i 3; X 2 = 1 dla społeczności 2 i X 2 =YX{1,2,3}X1X2)X1=1X1=0X2)=1 dla społeczności 1 i 3.)X2)=0

Obecna analiza może być jedną z następujących czynności: albo

Y=α+βX+ε(pierwszy model)

lub

Y=α+β1X1+β2)X2)+ε(drugi model).

W obu przypadkach reprezentuje zestaw identycznie rozmieszczonych niezależnych zmiennych losowych z zerowym oczekiwaniem. Drugi model prawdopodobnie jest zamierzony, ale pierwszy model jest tym, który będzie pasował do kodowania opisanego w pytaniu.ε

Wynikiem regresji OLS jest zestaw dopasowanych parametrów (oznaczonych symbolami „czapki”) wraz z oszacowaniem powszechnej wariancji błędów. W pierwszym modelu jest jeden test t porównać β do 0 . W drugim modelu są dwa testy t: jeden do porównania ^ β 1 do 0, a drugi do porównania ^ β 2 do 0 . Ponieważ pytanie dotyczy tylko jednego testu t, zacznijmy od zbadania pierwszego modelu.β^0β1^0β2)^0

Stwierdziwszy, że β jest znacząco różne od 0 , można dokonać oszacowania Y = E [ α + β X + ε ] = α + β Xβ^0Ymi[α+βX+ε]α+βX dla każdej społeczności:

dla społeczności 1 a oszacowanie wynosi α + βX=1α+β ;

dla społeczności 2 a oszacowanie wynosi α + 2 βX=2)α+2)β ; i

dla społeczności 3, a oszacowanie wynosi α + 3 β . X=3)α+3)β

W szczególności pierwszy model wymusza postęp arytmetyczny w efektach społeczności. Jeśli kodowanie społeczności ma być jedynie arbitralnym sposobem różnicowania społeczności, to wbudowane ograniczenie jest równie arbitralne i prawdopodobnie błędne.

Pouczające jest wykonanie tej samej szczegółowej analizy prognoz drugiego modelu:

Dla społeczności 1, gdzie i X 2 = 0 , przewidywana wartość Y jest równa α + β 1 . Konkretnie,X1=1X2)=0Yα+β1

Y(społeczność 1)=α+β1+ε.

Dla społeczności 2, gdzie i X 2 = 1 , przewidywana wartość Y jest równa α + β 2 . Konkretnie,X1=0X2)=1Yα+β2)

Y(społeczność 2)=α+β2)+ε.

Dla społeczności 3, gdzie , przewidywana wartość Y jest równa α . Konkretnie,X1=X2)=0Yα

Y(społeczność 3)=α+ε.

Trzy parametry skutecznie dają drugiemu modelowi pełną swobodę osobnego oszacowania trzech oczekiwanych wartości Y Testy t oceniają, czy (1) ; to znaczy, czy istnieje różnica między społecznościami 1 i 3; oraz (2) p 2, = 0 ; to znaczy, czy istnieje różnica między społecznościami 2 i 3. Ponadto można przetestować „kontrast” β 2 - β 1 za pomocą testu t, aby sprawdzić, czy społeczności 2 i 1 różnią się: działa to, ponieważ ich różnica wynosi ( α + β 2 ) - ( αβ1=0β2)=0β2)-β1 = β 2 - β 1 .(α+β2))-(α+β1)β2)-β1

Teraz możemy ocenić efekt trzech oddzielnych regresji. Oni by byli

Y(społeczność 1)=α1+ε1,

Y(społeczność 2)=α2)+ε2),

Y(społeczność 3)=α3)+ε3).

Porównując to do drugiego modelu, widzimy, że powinien zgadzać się z α + β 1 , α 2 powinien zgadzać się z α + β 2 , a α 3 powinien zgadzać się z α . Pod względem elastyczności dopasowania parametrów oba modele są jednakowo dobre. Założenia w tym modelu dotyczące terminów błędów są jednak słabsze. Wszystkie ε 1 muszą być niezależne i identycznie rozmieszczone (iid); wszystkie ε 2 muszą być iid, a wszystkie ε 3 muszą być iid,α1α+β1α2)α+β2)α3)αε1ε2)ε3)ale nie zakłada się niczego o relacjach statystycznych między poszczególnymi regresjami. Oddzielne regresje pozwalają zatem na dodatkową elastyczność:

  • Co najważniejsze, rozkład może różnić się od rozkładu ε 2, który może różnić się od rozkładu ε 3 .ε1ε2)ε3)

  • W niektórych sytuacjach może być skorelowane z ε j . Żaden z tych modeli nie obsługuje tego wyraźnie, ale przynajmniej na trzeci model (osobne regresje) nie będzie miał negatywnego wpływu.εjaεjot

Ta dodatkowa elastyczność oznacza, że ​​wyniki testu t parametrów będą prawdopodobnie różnić się między drugim a trzecim modelem. (Nie powinno to jednak skutkować różnymi oszacowaniami parametrów.)

Aby sprawdzić, czy potrzebne są osobne regresje , wykonaj następujące czynności:

Zamontuj drugi model. Wykreśl resztki względem społeczności, na przykład jako zestaw równoległych wykresów pudełkowych lub trio histogramów lub nawet jako trzy wykresy prawdopodobieństwa. Poszukaj dowodów na różne kształty dystrybucji, a zwłaszcza znacznie różne wariancje. Jeśli nie ma takich dowodów, drugi model powinien być w porządku. Jeśli jest obecny, osobne regresje są uzasadnione.

Gdy modele są wielowymiarowe - to znaczy obejmują inne czynniki - możliwa jest podobna analiza, z podobnymi (ale bardziej skomplikowanymi) wnioskami. Zasadniczo wykonywanie oddzielnych regresji jest równoznaczne z włączeniem wszystkich możliwych dwukierunkowych interakcji ze zmienną społeczności (kodowaną jak w drugim modelu, a nie pierwszym) i dopuszczeniem różnych rozkładów błędów dla każdej społeczności.

Whuber
źródło
-3
  • wybór modelu (IMHO) wprowadź opis zdjęcia tutajmoże być zalecany. Ponieważ złożone modele (Oddzielne nachylenie) będą podlegały silniejszej karze, dlatego bardziej zwięzłe i łatwiejsze do interpretacji modele będą „lepsze”.
Ivan Kshnyasev
źródło
1
Nie jest do końca jasne, co tu polecasz, ani jak odnosi się do tego tabela.
Scortchi - Przywróć Monikę