Uogólnione najmniejsze kwadraty: od współczynników regresji do współczynników korelacji?

10

Przynajmniej kwadraty z jednym predyktorem:

y=βx+ϵ

Jeśli i są znormalizowane przed montażem (tj ), a następnie:y N ( 0 , 1 )xyN(0,1)

  • rβ jest taki sam jak współczynnik korelacji Pearsona, .r
  • x = β y + ϵβ jest taki sam w odzwierciedlonej regresji:x=βy+ϵ

Czy to samo dotyczy uogólnionych metod najmniejszych kwadratów (GLS)? To znaczy, jeśli znormalizuję swoje dane, czy mogę uzyskać współczynniki korelacji bezpośrednio ze współczynników regresji?

Po eksperymentowaniu z danymi odzwierciedlony GLS prowadzi do różnych współczynników a także nie jestem pewien, czy uważam, że współczynniki regresji pasują do moich oczekiwanych wartości korelacji. Wiem, że ludzie cytują współczynniki korelacji GLS, więc zastanawiam się, w jaki sposób do nich docierają, a więc co naprawdę oznaczają?β

sqrt
źródło

Odpowiedzi:

4

Odpowiedź brzmi: tak, współczynniki regresji liniowej są korelacjami predyktorów z odpowiedzią, ale tylko przy zastosowaniu prawidłowego układu współrzędnych .

x1,x2,,xnyxiyxity

β=(XtX)1Xty

Jeśli tak się dzieje, że (macierz tożsamości), toXtX=I

β=Xty

i odzyskujemy wektor korelacji. Często atrakcyjne jest przekształcenie problemu regresji w kategoriach predyktorów które spełniają , znajdując odpowiednie liniowe kombinacje oryginalnych predyktorów, które sprawiają, że ta relacja jest prawdziwa ( lub równoważnie, liniowa zmiana współrzędnych); te nowe predyktory nazywane są głównymi składnikami. ˜ X t ˜ X =Ix~iX~tX~=I

Ogólnie rzecz biorąc, odpowiedź na twoje pytanie brzmi „ tak”, ale tylko wtedy, gdy same predyktory są nieskorelowane . W przeciwnym razie wyrażenie

XtXβ=Xty

pokazuje, że bety należy mieszać z korelacjami między samymi predyktorami, aby odzyskać korelacje między predyktorem a odpowiedzią.

Na marginesie wyjaśnia to również, dlaczego wynik jest zawsze prawdziwy dla jednej zmiennej regresji liniowej. Po znormalizowaniu wektora predykcyjnego :x

x0tx=ixi=0

gdzie jest wektorem przechwytującym wszystkich. Tak więc (dwukolumnowa) macierz danych automatycznie spełnia , a wynik jest następujący. X X t X = Ix0XXtX=I

Matthew Drury
źródło