Korzystam z modelu OLS z ciągłą zmienną indeksu aktywów jako DV. Moje dane są agregowane z trzech podobnych społeczności znajdujących się blisko siebie. Mimo to uważałem, że ważne jest, aby używać społeczności jako zmiennej kontrolującej. Jak się okazuje, społeczność jest znacząca na poziomie 1% (wynik t -4,52). Społeczność jest zmienną nominalną / kategorialną zakodowaną jako 1,2,3 dla 1 z 3 różnych społeczności.
Moje pytanie brzmi, czy ten wysoki stopień znaczenia oznacza, że powinienem robić regresje w społecznościach indywidualnie, a nie jako agregację. W przeciwnym razie, czy używanie społeczności jako zmiennej sterującej zasadniczo to robi?
Odpowiedzi:
Pytanie sugeruje porównanie trzech powiązanych modeli. Aby wyjaśnić porównanie, niech będzie zmienną zależną, niech będzie bieżącym kodem wspólnoty i zdefiniuj i X 2 jako wskaźniki odpowiednio społeczności 1 i 2. (Oznacza to, że X 1 = 1 dla społeczności 1 i X 1 = 0 dla społeczności 2 i 3; X 2 = 1 dla społeczności 2 i X 2 =Y X∈ { 1 , 2 , 3 } X1 X2) X1= 1 X1= 0 X2)= 1 dla społeczności 1 i 3.)X2)= 0
Obecna analiza może być jedną z następujących czynności: albo
lub
W obu przypadkach reprezentuje zestaw identycznie rozmieszczonych niezależnych zmiennych losowych z zerowym oczekiwaniem. Drugi model prawdopodobnie jest zamierzony, ale pierwszy model jest tym, który będzie pasował do kodowania opisanego w pytaniu.ε
Wynikiem regresji OLS jest zestaw dopasowanych parametrów (oznaczonych symbolami „czapki”) wraz z oszacowaniem powszechnej wariancji błędów. W pierwszym modelu jest jeden test t porównać β do 0 . W drugim modelu są dwa testy t: jeden do porównania ^ β 1 do 0, a drugi do porównania ^ β 2 do 0 . Ponieważ pytanie dotyczy tylko jednego testu t, zacznijmy od zbadania pierwszego modelu.β^ 0 β1^ 0 β2^ 0
Stwierdziwszy, że β jest znacząco różne od 0 , można dokonać oszacowania Y = E [ α + β X + ε ] = α + β Xβ^ 0 Y E[α+βX+ε] α+βX dla każdej społeczności:
dla społeczności 1 a oszacowanie wynosi α + βX=1 α+β ;
dla społeczności 2 a oszacowanie wynosi α + 2 βX=2 α+2β ; i
dla społeczności 3, a oszacowanie wynosi α + 3 β .X=3 α+3β
W szczególności pierwszy model wymusza postęp arytmetyczny w efektach społeczności. Jeśli kodowanie społeczności ma być jedynie arbitralnym sposobem różnicowania społeczności, to wbudowane ograniczenie jest równie arbitralne i prawdopodobnie błędne.
Pouczające jest wykonanie tej samej szczegółowej analizy prognoz drugiego modelu:
Dla społeczności 1, gdzie i X 2 = 0 , przewidywana wartość Y jest równa α + β 1 . Konkretnie,X1=1 X2=0 Y α+β1
Dla społeczności 2, gdzie i X 2 = 1 , przewidywana wartość Y jest równa α + β 2 . Konkretnie,X1=0 X2=1 Y α+β2
Dla społeczności 3, gdzie , przewidywana wartość Y jest równa α . Konkretnie,X1= X2)= 0 Y α
Trzy parametry skutecznie dają drugiemu modelowi pełną swobodę osobnego oszacowania trzech oczekiwanych wartościY Testy t oceniają, czy (1) ; to znaczy, czy istnieje różnica między społecznościami 1 i 3; oraz (2) p 2, = 0 ; to znaczy, czy istnieje różnica między społecznościami 2 i 3. Ponadto można przetestować „kontrast” β 2 - β 1 za pomocą testu t, aby sprawdzić, czy społeczności 2 i 1 różnią się: działa to, ponieważ ich różnica wynosi ( α + β 2 ) - ( αβ1= 0 β2)= 0 β2)- β1 = β 2 - β 1 .( α + β2)) - ( α + β1) β2)- β1
Teraz możemy ocenić efekt trzech oddzielnych regresji. Oni by byli
Porównując to do drugiego modelu, widzimy, że powinien zgadzać się z α + β 1 , α 2 powinien zgadzać się z α + β 2 , a α 3 powinien zgadzać się z α . Pod względem elastyczności dopasowania parametrów oba modele są jednakowo dobre. Założenia w tym modelu dotyczące terminów błędów są jednak słabsze. Wszystkie ε 1 muszą być niezależne i identycznie rozmieszczone (iid); wszystkie ε 2 muszą być iid, a wszystkie ε 3 muszą być iid,α1 α + β1 α2) α + β2) α3) α ε1 ε2) ε3) ale nie zakłada się niczego o relacjach statystycznych między poszczególnymi regresjami. Oddzielne regresje pozwalają zatem na dodatkową elastyczność:
Co najważniejsze, rozkład może różnić się od rozkładu ε 2, który może różnić się od rozkładu ε 3 .ε1 ε2) ε3)
W niektórych sytuacjach może być skorelowane z ε j . Żaden z tych modeli nie obsługuje tego wyraźnie, ale przynajmniej na trzeci model (osobne regresje) nie będzie miał negatywnego wpływu.εja εjot
Ta dodatkowa elastyczność oznacza, że wyniki testu t parametrów będą prawdopodobnie różnić się między drugim a trzecim modelem. (Nie powinno to jednak skutkować różnymi oszacowaniami parametrów.)
Aby sprawdzić, czy potrzebne są osobne regresje , wykonaj następujące czynności:
Zamontuj drugi model. Wykreśl resztki względem społeczności, na przykład jako zestaw równoległych wykresów pudełkowych lub trio histogramów lub nawet jako trzy wykresy prawdopodobieństwa. Poszukaj dowodów na różne kształty dystrybucji, a zwłaszcza znacznie różne wariancje. Jeśli nie ma takich dowodów, drugi model powinien być w porządku. Jeśli jest obecny, osobne regresje są uzasadnione.
Gdy modele są wielowymiarowe - to znaczy obejmują inne czynniki - możliwa jest podobna analiza, z podobnymi (ale bardziej skomplikowanymi) wnioskami. Zasadniczo wykonywanie oddzielnych regresji jest równoznaczne z włączeniem wszystkich możliwych dwukierunkowych interakcji ze zmienną społeczności (kodowaną jak w drugim modelu, a nie pierwszym) i dopuszczeniem różnych rozkładów błędów dla każdej społeczności.
źródło
źródło