Wyjaśnienie wariancji modelu regresji

13

To może być proste wyjaśnienie (i tak mam nadzieję).

Przeprowadziłem analizę regresji w Matlabie przy użyciu zestawu narzędzi regresji. Natknąłem się jednak na badanie, które stwierdza:

„Dzięki analizie regresji możliwe było skonfigurowanie modelu predykcyjnego przy użyciu tylko czterech cech dźwiękowych, które wyjaśniają 60% wariancji”

Link do artykułu jest dostępny w razie potrzeby: Artykuł

Nie jestem w 100% pewien, co to znaczy, ale mam nadzieję, że to coś prostego. Czy 60% to także dobra rzecz? Próbowałem tego poszukać, ale ponieważ przed słowem „wariancja” zawsze jest procent, trudno jest znaleźć odpowiedź.

użytkownik1574598
źródło

Odpowiedzi:

9

Spróbuję wyjaśnić to w prosty sposób.

Model regresji koncentruje się na związku między zmienną zależną a zestawem zmiennych niezależnych . Zmienna zależna to wynik, który próbujesz przewidzieć, używając jednej lub więcej zmiennych niezależnych.

Załóżmy, że masz taki model:

Waga_i = 3,0 + 35 * Wysokość_i + ε

Jedno z oczywistych pytań brzmi: jak dobrze działa ten model? Innymi słowy, jak dobrze wzrost osoby dokładnie przewiduje - lub wyjaśnia - wagę tej osoby?

Zanim odpowiemy na to pytanie, musimy najpierw zrozumieć, jak duże wahania obserwujemy w ciężarach ludzi. Jest to ważne, ponieważ staramy się wyjaśnić fluktuację (zmienność) wag u różnych osób, używając ich wysokości. Jeśli wzrost ludzi jest w stanie wyjaśnić tę zmianę masy, to mamy dobry model.

Wariancja jest dobrym metryczny być stosowane do tego celu, gdyż mierzy ile zbiór liczb są rozłożone (od ich wartości średniej).

Pomaga nam to sformułować nasze pierwotne pytanie: ile wariancji masy osoby można wytłumaczyć jej wzrostem ?

Stąd pochodzi „% wyjaśniona wariancja”. Nawiasem mówiąc, do analizy regresji jest równy współczynnik korelacji R-kwadrat .

Na model wyżej, możemy być w stanie złożyć oświadczenie jak: Stosując analizę regresji, możliwe było utworzenie modelu prognostycznego pomocą wysokość osoby, które wyjaśniają 60% wariancji w masie ”.

Jak dobre jest 60%? Trudno w tej sprawie dokonać obiektywnej oceny. Ale jeśli masz inne konkurencyjne modele - powiedzmy, inny model regresji, który wykorzystuje wiek osoby do przewidywania jej / jej masy - możesz porównać różne modele na podstawie tego, ile wariancji jest przez nich wyjaśnione i zdecydować, który model jest lepszy. (Istnieją pewne zastrzeżenia, patrz „Interpretowanie i stosowanie regresji” - Christopher H. Achen http://www.sagepub.in/books/Book450/authors )

Vishal
źródło
1
To z pewnością odpowiedziało na dużą część mojego pytania. Jeśli chodzi o to, dlaczego autorzy twierdzą, że ma to ogromne znaczenie, nie wiem. Więc jeśli jest to wartość kwadratowa R i wrócimy do twojego przykładu: powiedzmy, że użyliśmy modelu dla „wieku”, który miał wariancję 80%, a następnie i modelu dla „wzrostu”, który miał wariancję 85 %, aby przewidzieć wagę osoby, uważam, że ten drugi model byłby bardziej znaczący? Dzięki za link do książki, kupiłem go zeszłej nocy, ponieważ w najbliższych miesiącach będę często używać regresji.
user1574598
1
Tak, można wnioskować, że ten drugi model ma lepszą zdolność do przewidywania (lub wyjaśniania) wagi osoby, ceteris paribus. BTW, podałeś to jako „model miał wariancję 80%”, ale powinien to być „model wyjaśnia 80% wariancji”.
Vishal
4

Autorzy odnoszą się do wartości dla modelu podanej we wzorzeR2)

ja=1n(y^ja-y¯)2)ja=1n(yja-y¯)2)

gdzie jest obserwowaną wartością, najmniejsza wartość w kwadracie dla punktu danych a jest ogólną średnią. Czasami myślimy o jako proporcji wariancji wyjaśnionej przez model z powodu całkowitej sumy rozkładu kwadratówr i i p ˉ Y R 2yjay^jajathy¯R2)

ja=1n(yja-y¯)2)=ja=1n(y^ja-y¯)2)+ja=1n(yja-y^ja)2),

ten ostatni termin jest błędem resztkowym, który nie jest uwzględniany przez model. w zasadzie mówi nam ile ogólnej zmienności został „wchłonięty” wartościami zamontowane.R2)

dsaxton
źródło