Czytam tę notatkę .
Na stronie 2 znajduje się:
„Ile wariancji w danych tłumaczy dany model regresji?”
„Interpretacja regresji dotyczy średniej współczynników; wnioskowanie dotyczy ich wariancji”.
Czytałem o takich stwierdzeniach wiele razy, dlaczego miałoby nas obchodzić „ile wariancji w danych wyjaśnia dany model regresji?”… A dokładniej, dlaczego „wariancja”?
Odpowiedzi:
dlaczego mielibyśmy przejmować się tym „ile wariancji w danych wyjaśnia dany model regresji?”
Aby odpowiedzieć na to pytanie, warto zastanowić się dokładnie, co to znaczy, że pewien procent wariancji zostanie wyjaśniony przez model regresji.
Niech będą zmienną wynikową. Typowa wariancja próbki zmiennej zależnej w modelu regresji to Teraz pozwól jest prognozą opartą na modelu regresji liniowej metodą najmniejszych kwadratów z wartościami predykcyjnymi . Jak udowodniono tutaj , powyższą wariancję można podzielić na:1Y1, . . . , Yn Y ı≡ f (xI),YiXI1
W regresji metodą najmniejszych kwadratów średnia przewidywanych wartości wynosi , dlatego całkowita wariancja jest równa uśrednionej kwadratowej różnicy między wartościami obserwowanymi i przewidywanymi (wariancja resztkowa) plus wariancji próbki samych prognoz (wyjaśnione wariancja), które są tylko funkcją s . Dlatego „wyjaśniona” wariancja może być uważana za wariancję w którą można przypisać zmienności w . Proporcja wariancji w która jest „wyjaśniona” (tj. Proporcja wariancji w którą można przypisać zmienności w XYiXiYiYiXiR2Y¯¯¯¯ X Yja Xja Yja Yja Xja ) jest czasami określany jako . R2)
Teraz używamy dwóch skrajnych przykładów, aby wyjaśnić, dlaczego ten rozkład wariancji jest ważny:
(1) Predyktory nie mają nic wspólnego z odpowiedziami . W takim przypadku najlepszym obiektywnym predyktorem (w sensie najmniejszych kwadratów) dla jest . Dlatego całkowita wariancja w jest po prostu równa wariancji resztkowej i nie jest związana z wariancją w predyktorach .Y i = Ż Y Y i X iYja Yˆja= Y¯¯¯¯ Yja Xja
(2) Predyktory są doskonale liniowo powiązane z predyktorami . W takim przypadku przewidywania są dokładnie poprawne i . Dlatego nie ma resztkowej wariancji, a cała wariancja wyniku jest wariancją samych prognoz, które są jedynie funkcją predyktorów. Dlatego cała wariancja wyniku wynika po prostu z wariancji predyktorów .Yˆja= Yja Xja
Sytuacje z rzeczywistymi danymi często będą znajdować się między dwiema skrajnościami, podobnie jak proporcja wariancji, którą można przypisać tym dwóm źródłom. Im bardziej „wyjaśniona wariancja” jest - tj. Im większa zmienność w jest spowodowana zmiennością w - tym lepsze są przewidywania (tzn. Im mniejsza „wariancja resztkowa” to), co jest innym sposobem stwierdzenia, że model najmniejszych kwadratów pasuje dobrze.Yja Xja Yˆja
źródło
Nie mogę biegać z dużymi psami statystyk, które odpowiedziały przede mną i być może moje myślenie jest naiwne, ale patrzę na to w ten sposób ...
Wyobraź sobie, że jeździsz samochodem i jedziesz drogą, skręcasz kierownicą w lewo i prawo i szaleńczo naciskasz pedał gazu i hamulce. A jednak samochód porusza się płynnie, bez twoich działań. Od razu podejrzewasz, że nie byłeś w prawdziwym samochodzie, a być może, jeśli przyjrzymy się bliżej, ustalimy, że jeździsz w Disney World. (Gdybyś był w prawdziwym samochodzie, byłbyś w śmiertelnym niebezpieczeństwie, ale nie jedźmy tam.)
Z drugiej strony, jeśli jechałeś samochodem w dół, a nieznaczne skręcenie koła w lewo lub w prawo natychmiast spowodowało ruch samochodu, naciśnięcie hamulca spowodowało silne spowolnienie, a naciśnięcie pedału gazu wróciło z powrotem do siedzenie. Możesz podejrzewać, że byłeś w samochodzie sportowym o wysokich osiągach.
Ogólnie rzecz biorąc, prawdopodobnie doświadczasz czegoś pomiędzy tymi dwoma skrajnościami. Stopień, w jakim twoje dane wejściowe (układ kierowniczy, hamulce, gaz) bezpośrednio wpływają na ruch samochodu, daje ci wskazówkę co do jego jakości. Oznacza to, że im więcej zmienności w ruchu samochodu, która jest związana z twoimi działaniami, tym lepszy samochód, a im bardziej samochód porusza się niezależnie od twojej kontroli, tym gorzej jest samochód.
W podobny sposób mówisz o tworzeniu modelu dla niektórych danych (nazwijmy te dane ), w oparciu o niektóre inne zestawy danych (nazwijmy je ). Jeżeli nie zmienia się, to jest jak samochód, który nie rusza i tam naprawdę nie ma sensu dyskutować, jeśli samochód (model) działa dobrze, czy nie, więc zakładamy, nie różnią.y x1, x2), . . . , xja y y
Podobnie jak samochód, dobrej jakości model będzie miał dobry związek między zmiennymi wynikami zmiennymi wejściowymi . W przeciwieństwie do samochodu, niekoniecznie powodują zmianę , ale jeśli model będzie użyteczny, muszą się zmienić w ścisłym związku z . Innymi słowy, wyjaśniają dużą wariancję .y xja xja y xja y xja y
PS Nie byłem w stanie wymyślić analogii Kubusia Puchatka, ale próbowałem.
PPS [EDYCJA:] Pamiętaj, że odpowiadam na to pytanie. Nie daj się zwieść myśleniu, że jeśli weźmiesz pod uwagę 100% wariancji, Twój model będzie działał cudownie. Musisz także pomyśleć o nadmiernym dopasowaniu, gdzie Twój model jest tak elastyczny, że bardzo dobrze pasuje do danych treningowych - w tym do przypadkowych dziwactw i osobliwości. Aby skorzystać z tej analogii, potrzebujesz samochodu, który ma dobre sterowanie i hamulce, ale chcesz, aby działał dobrze na drodze, nie tylko na używanym torze testowym.
źródło