Dlaczego regresja dotyczy wariancji?

19

Czytam tę notatkę .

Na stronie 2 znajduje się:

„Ile wariancji w danych tłumaczy dany model regresji?”

„Interpretacja regresji dotyczy średniej współczynników; wnioskowanie dotyczy ich wariancji”.

Czytałem o takich stwierdzeniach wiele razy, dlaczego miałoby nas obchodzić „ile wariancji w danych wyjaśnia dany model regresji?”… A dokładniej, dlaczego „wariancja”?

Luna
źródło
„[V] ariance” w przeciwieństwie do czego, odchylenie standardowe? Jak myślisz, o co powinniśmy dbać podczas regresji? Jakie są Twoje typowe cele w budowaniu modelu regresji?
gung - Przywróć Monikę
Wariancja ma inne jednostki niż modelowana ilość, więc zawsze trudno mi było interpretować „proporcję wariancji wyjaśnioną przez model”.
lata

Odpowiedzi:

18

dlaczego mielibyśmy przejmować się tym „ile wariancji w danych wyjaśnia dany model regresji?”

Aby odpowiedzieć na to pytanie, warto zastanowić się dokładnie, co to znaczy, że pewien procent wariancji zostanie wyjaśniony przez model regresji.

Niech będą zmienną wynikową. Typowa wariancja próbki zmiennej zależnej w modelu regresji to Teraz pozwól jest prognozą opartą na modelu regresji liniowej metodą najmniejszych kwadratów z wartościami predykcyjnymi . Jak udowodniono tutaj , powyższą wariancję można podzielić na:1Y1,...,Yn Y ı f (xI),YiXI1

1n-1ja=1n(Yja-Y¯)2)
Y^jafa^(Xja)YjaXja
1n-1ja=1n(Yja-Y¯)2)=1n-1ja=1n(Yja-Y^ja)2)rmisjareuzal vzarjazandomi+1n-1ja=1n(Y^ja-Y¯)2)mixplzajanmire vzarjazandomi

W regresji metodą najmniejszych kwadratów średnia przewidywanych wartości wynosi , dlatego całkowita wariancja jest równa uśrednionej kwadratowej różnicy między wartościami obserwowanymi i przewidywanymi (wariancja resztkowa) plus wariancji próbki samych prognoz (wyjaśnione wariancja), które są tylko funkcją s . Dlatego „wyjaśniona” wariancja może być uważana za wariancję w którą można przypisać zmienności w . Proporcja wariancji w która jest „wyjaśniona” (tj. Proporcja wariancji w którą można przypisać zmienności w XYiXiYiYiXiR2Y¯XYjaXjaYjaYjaXja) jest czasami określany jako . R2)

Teraz używamy dwóch skrajnych przykładów, aby wyjaśnić, dlaczego ten rozkład wariancji jest ważny:

  • (1) Predyktory nie mają nic wspólnego z odpowiedziami . W takim przypadku najlepszym obiektywnym predyktorem (w sensie najmniejszych kwadratów) dla jest . Dlatego całkowita wariancja w jest po prostu równa wariancji resztkowej i nie jest związana z wariancją w predyktorach .Y i = Ż Y Y i X iYjaY^ja=Y¯YjaXja

  • (2) Predyktory są doskonale liniowo powiązane z predyktorami . W takim przypadku przewidywania są dokładnie poprawne i . Dlatego nie ma resztkowej wariancji, a cała wariancja wyniku jest wariancją samych prognoz, które są jedynie funkcją predyktorów. Dlatego cała wariancja wyniku wynika po prostu z wariancji predyktorów .Y^ja=YjaXja

Sytuacje z rzeczywistymi danymi często będą znajdować się między dwiema skrajnościami, podobnie jak proporcja wariancji, którą można przypisać tym dwóm źródłom. Im bardziej „wyjaśniona wariancja” jest - tj. Im większa zmienność w jest spowodowana zmiennością w - tym lepsze są przewidywania (tzn. Im mniejsza „wariancja resztkowa” to), co jest innym sposobem stwierdzenia, że ​​model najmniejszych kwadratów pasuje dobrze. YjaXjaY^ja

Makro
źródło
To jest moja odpowiedź, ale może trochę lepiej wyjaśniona. Widzę też możliwą krytykę, o której można by wspomnieć, że powinienem był napisać wariację w stosunku do średniej Y.
Michael R. Chernick
1
@MichaelChernick, tak, ale w regresji metodą najmniejszych kwadratów (o której myślę, że OP mówi w oparciu o połączone slajdy), średnia przewidywanych wartości jest równa średniej , więc możesz nazwać to wariancją próbki prognozy. Y
Makro
Dokonałem edycji mojej odpowiedzi, ponieważ Yb jest potrzebny do prawidłowego działania dekompozycji wariancji.
Michael R. Chernick,
Tak, było dla mnie jasne, że odnosi się do regresji metodą najmniejszych kwadratów. Wciąż wiele z tego, co napisałeś, po prostu powtarza to, co powiedziałem nieco inaczej. Nadal dałem ci +1.
Michael R. Chernick,
1
Makro, chodziło mi o to, że ten rozkład występuje tylko wtedy, gdy i więc „regresja” z natury obejmuje rzut ortogonalny na przestrzeń zawierającą stały wektor. Zauważ, że możemy łatwo „rozbić” ten rozkład, po prostu usuwając stały wektor z naszego modelu, co wydaje się być sprzeczne z twoim ostatnim komentarzem. y-y^,y^-y¯1=0
kardynał
9

Nie mogę biegać z dużymi psami statystyk, które odpowiedziały przede mną i być może moje myślenie jest naiwne, ale patrzę na to w ten sposób ...

Wyobraź sobie, że jeździsz samochodem i jedziesz drogą, skręcasz kierownicą w lewo i prawo i szaleńczo naciskasz pedał gazu i hamulce. A jednak samochód porusza się płynnie, bez twoich działań. Od razu podejrzewasz, że nie byłeś w prawdziwym samochodzie, a być może, jeśli przyjrzymy się bliżej, ustalimy, że jeździsz w Disney World. (Gdybyś był w prawdziwym samochodzie, byłbyś w śmiertelnym niebezpieczeństwie, ale nie jedźmy tam.)

Z drugiej strony, jeśli jechałeś samochodem w dół, a nieznaczne skręcenie koła w lewo lub w prawo natychmiast spowodowało ruch samochodu, naciśnięcie hamulca spowodowało silne spowolnienie, a naciśnięcie pedału gazu wróciło z powrotem do siedzenie. Możesz podejrzewać, że byłeś w samochodzie sportowym o wysokich osiągach.

Ogólnie rzecz biorąc, prawdopodobnie doświadczasz czegoś pomiędzy tymi dwoma skrajnościami. Stopień, w jakim twoje dane wejściowe (układ kierowniczy, hamulce, gaz) bezpośrednio wpływają na ruch samochodu, daje ci wskazówkę co do jego jakości. Oznacza to, że im więcej zmienności w ruchu samochodu, która jest związana z twoimi działaniami, tym lepszy samochód, a im bardziej samochód porusza się niezależnie od twojej kontroli, tym gorzej jest samochód.

W podobny sposób mówisz o tworzeniu modelu dla niektórych danych (nazwijmy te dane ), w oparciu o niektóre inne zestawy danych (nazwijmy je ). Jeżeli nie zmienia się, to jest jak samochód, który nie rusza i tam naprawdę nie ma sensu dyskutować, jeśli samochód (model) działa dobrze, czy nie, więc zakładamy, nie różnią.yx1,x2),...,xjayy

Podobnie jak samochód, dobrej jakości model będzie miał dobry związek między zmiennymi wynikami zmiennymi wejściowymi . W przeciwieństwie do samochodu, niekoniecznie powodują zmianę , ale jeśli model będzie użyteczny, muszą się zmienić w ścisłym związku z . Innymi słowy, wyjaśniają dużą wariancję .yxjaxja yxjayxjay

PS Nie byłem w stanie wymyślić analogii Kubusia Puchatka, ale próbowałem.

PPS [EDYCJA:] Pamiętaj, że odpowiadam na to pytanie. Nie daj się zwieść myśleniu, że jeśli weźmiesz pod uwagę 100% wariancji, Twój model będzie działał cudownie. Musisz także pomyśleć o nadmiernym dopasowaniu, gdzie Twój model jest tak elastyczny, że bardzo dobrze pasuje do danych treningowych - w tym do przypadkowych dziwactw i osobliwości. Aby skorzystać z tej analogii, potrzebujesz samochodu, który ma dobre sterowanie i hamulce, ale chcesz, aby działał dobrze na drodze, nie tylko na używanym torze testowym.

Wayne
źródło