Spróbuję wyjaśnić to w prosty sposób.
Model regresji koncentruje się na związku między zmienną zależną a zestawem zmiennych niezależnych . Zmienna zależna to wynik, który próbujesz przewidzieć, używając jednej lub więcej zmiennych niezależnych.
Załóżmy, że masz taki model:
Waga_i = 3,0 + 35 * Wysokość_i + ε
Jedno z oczywistych pytań brzmi: jak dobrze działa ten model? Innymi słowy, jak dobrze wzrost osoby dokładnie przewiduje - lub wyjaśnia - wagę tej osoby?
Zanim odpowiemy na to pytanie, musimy najpierw zrozumieć, jak duże wahania obserwujemy w ciężarach ludzi. Jest to ważne, ponieważ staramy się wyjaśnić fluktuację (zmienność) wag u różnych osób, używając ich wysokości. Jeśli wzrost ludzi jest w stanie wyjaśnić tę zmianę masy, to mamy dobry model.
Wariancja jest dobrym metryczny być stosowane do tego celu, gdyż mierzy ile zbiór liczb są rozłożone (od ich wartości średniej).
Pomaga nam to sformułować nasze pierwotne pytanie: ile wariancji masy osoby można wytłumaczyć jej wzrostem ?
Stąd pochodzi „% wyjaśniona wariancja”. Nawiasem mówiąc, do analizy regresji jest równy współczynnik korelacji R-kwadrat .
Na model wyżej, możemy być w stanie złożyć oświadczenie jak: Stosując analizę regresji, możliwe było utworzenie modelu prognostycznego pomocą wysokość osoby, które wyjaśniają 60% wariancji w masie ”.
Jak dobre jest 60%? Trudno w tej sprawie dokonać obiektywnej oceny. Ale jeśli masz inne konkurencyjne modele - powiedzmy, inny model regresji, który wykorzystuje wiek osoby do przewidywania jej / jej masy - możesz porównać różne modele na podstawie tego, ile wariancji jest przez nich wyjaśnione i zdecydować, który model jest lepszy. (Istnieją pewne zastrzeżenia, patrz „Interpretowanie i stosowanie regresji” - Christopher H. Achen http://www.sagepub.in/books/Book450/authors )
Autorzy odnoszą się do wartości dla modelu podanej we wzorzeR2)
gdzie jest obserwowaną wartością, najmniejsza wartość w kwadracie dla punktu danych a jest ogólną średnią. Czasami myślimy o jako proporcji wariancji wyjaśnionej przez model z powodu całkowitej sumy rozkładu kwadratówr i i p ˉ Y R 2yja y^ja jath y¯ R2)
ten ostatni termin jest błędem resztkowym, który nie jest uwzględniany przez model. w zasadzie mówi nam ile ogólnej zmienności został „wchłonięty” wartościami zamontowane.R2)
źródło