Wielowymiarowa regresja liniowa a kilka modeli regresji jednoczynnikowej

11

W ustawieniach regresji jednowymiarowej próbujemy modelować

y=Xβ+noise

gdzie wektor obserwacji i macierz projektowa z predyktorami. Rozwiązaniem jest \ beta_0 = (X ^ TX) ^ {- 1} Xy . n X R n × m m β 0 = ( X T X ) - 1 X yyRnnXRn×mmβ0=(XTX)1Xy

W ustawieniach regresji wielowymiarowej próbujemy modelować

Y=Xβ+noise

gdzie yRn×p jest macierzą n obserwacji i p różnych ukrytych zmiennych. Rozwiązaniem jest β0=(XTX)1XY .

Moje pytanie brzmi: w jaki sposób jest to, że różni się od wykonywania p inny jednowymiarowego regresji liniowej? Czytam tutaj, że w tym drugim przypadku bierzemy pod uwagę korelację między zmiennymi zależnymi, ale nie widzę jej z matematyki.

Roy
źródło
1
Zobacz twierdzenie Frisch-Waugh-Lovell.
rsm
1
@amorfati: Więc jeśli dobrze rozumiem, są takie same. Dlaczego ludzie traktują je inaczej?
Roy

Odpowiedzi:

6

W ustawieniu klasycznej wielowymiarowej regresji liniowej mamy model:

Y=Xβ+ϵ

gdzie reprezentuje zmienne niezależne, reprezentuje zmienne wielokrotne odpowiedzi, a to iid termin szum Gaussa. Hałas ma zerową średnią i może być skorelowany ze zmiennymi odpowiedzi. Rozwiązanie maksymalnego prawdopodobieństwa dla wag jest równoważne rozwiązaniu metodą najmniejszych kwadratów (niezależnie od korelacji hałasu) [1] [2]:XYϵ

β^=(XTX)1XTY

Jest to równoważne niezależnemu rozwiązaniu osobnego problemu regresji dla każdej zmiennej odpowiedzi. Można to zaobserwować na podstawie faktu, że tą kolumnę (zawierającą wagi dla tej zmiennej wyjściowej) można uzyskać mnożąc przez kolumna (zawierająca wartości tej zmiennej odpowiedzi).iβ^i(XTX)1XTiYi

Jednak wielowymiarowa regresja liniowa różni się od osobnego rozwiązywania indywidualnych problemów regresji, ponieważ procedury wnioskowania statystycznego uwzględniają korelacje między zmiennymi wielokrotnych odpowiedzi (np. Patrz [2], [3], [4]). Na przykład macierz kowariancji szumu pojawia się w rozkładach próbkowania, statystykach testów i szacunkach przedziałów.

Kolejna różnica pojawia się, jeśli pozwolimy każdej zmiennej odpowiedzi mieć swój własny zestaw zmiennych towarzyszących:

Yi=Xiβi+ϵi

gdzie reprezentuje tą zmienną odpowiedzi, a i reprezentują odpowiadający im zestaw zmiennych towarzyszących i składnika szumowego. Jak wyżej, warunki hałasu mogą być skorelowane między zmiennymi odpowiedzi. W tym ustawieniu istnieją estymatory, które są bardziej wydajne niż najmniejszych kwadratów i nie można ich zredukować do rozwiązywania osobnych problemów z regresją dla każdej zmiennej odpowiedzi. Na przykład patrz [1]. i X i ϵ iYiiXiϵja

Bibliografia

  1. Zellner (1962) . Skuteczna metoda szacowania pozornie niepowiązanych regresji i testów tendencji agregacyjnych.
  2. Helwig (2017) . Wieloczynnikowa regresja liniowa [Slajdy]
  3. Fox i Weisberg (2011) . Wielowymiarowe modele liniowe w R. [Dodatek do: R towarzyszący regresji stosowanej]
  4. Maitra (2013) . Modele wielowymiarowej regresji liniowej. [Slajdy]
user20160
źródło
1
Dzięki, teraz jest wyraźniej. Czy masz odniesienie do tego preparatu? Spotkałem tylko najmniej kwadratową formę. Czy znasz też pakiet Pythona, który to implementuje?
Roy
1
Po drugie, prośba o referencję. Czy przyjmuje się, że korelacja jest tylko kowariancją wyników, czy też uczy się czegoś, jeśli kowariancja warunkowa?
generic_user
Nie jestem w 100% pewien, że @ user20160 odnosi się do nich, ale myślę, że mieli na myśli oszacowanie równań / ogólne oszacowanie równań. EE / GEE są spójne, gdy struktura kowariancji jest źle określona, ​​a także można ustawić oczekiwaną strukturę kowariancji. Jednak modele te są iteracyjnie szacowane w przeciwieństwie do OLS o zamkniętej formie. Powinieneś być w stanie oszacować GEE / EE w Pythonie, ale nie znam pakietów.
iacobus
1
@Roy Przepisałem odpowiedź i dodałem referencje. Mój oryginalny post zakładał, że sprawa jest teraz ostatnim akapitem poprawionego postu. Spróbuję dodać więcej szczegółów później.
user20160