Chcę w pełni zrozumieć pojęcie opisujące wielkość zmienności między zmiennymi. Każde internetowe wyjaśnienie jest trochę mechaniczne i tępe. Chcę „zrozumieć” tę koncepcję, nie tylko mechanicznie używać liczb.
Np .: Przebadane godziny vs. wynik testu
= 0,8
= 0,64
- Co to znaczy?
- 64% zmienności wyników testu można wytłumaczyć godzinami?
- Skąd to wiemy po kwadracie?
regression
correlation
variance
JackOfAll
źródło
źródło
Odpowiedzi:
Zacznij od podstawowej idei wariacji. Twój model początkowy jest sumą kwadratowych odchyleń od średniej. Wartość R ^ 2 jest proporcją tej zmiany, która jest uwzględniana przy użyciu alternatywnego modelu. Na przykład R-kwadrat mówi ci, ile zmian w Y możesz się pozbyć, sumując kwadratowe odległości od linii regresji zamiast średniej.
Myślę, że jest to całkowicie jasne, jeśli pomyślimy o przedstawionym prostym problemie regresji. Rozważ typowy wykres rozproszenia, w którym masz predyktor X wzdłuż osi poziomej i odpowiedź Y wzdłuż osi pionowej.
Średnia to pozioma linia na wykresie, w której Y jest stałe. Całkowita zmiana Y jest sumą kwadratowych różnic między średnią Y a każdym indywidualnym punktem danych. Jest to odległość między linią średnią a każdym pojedynczym punktem do kwadratu i sumą.
Możesz także obliczyć inną miarę zmienności po uzyskaniu linii regresji z modelu. Jest to różnica między każdym punktem Y a linią regresji. Zamiast każdego (Y - średnia) do kwadratu otrzymujemy (Y - punkt na linii regresji) do kwadratu.
Jeśli linia regresji jest inna niż pozioma, uzyskamy mniejszą całkowitą odległość, gdy użyjemy tej dopasowanej linii regresji zamiast średniej - oznacza to, że jest mniej niewyjaśniona odmiana. Stosunek między wyjaśnioną dodatkową odmianą a pierwotną odmianą to twój R ^ 2. Jest to proporcja oryginalnej zmiany w odpowiedzi, która jest wyjaśniona przez dopasowanie tej linii regresji.
Oto kod R dla wykresu ze średnią, linią regresji i segmentami od linii regresji do każdego punktu, aby pomóc w wizualizacji:
źródło
Matematyczna demonstracja związku między nimi jest tutaj: korelacja Pearsona i analiza regresji metodą najmniejszych kwadratów .
Nie jestem pewien, czy istnieje matematyka czy jakakolwiek inna intuicja, którą można zaoferować poza matematyką, ale jeśli mogę ją sobie wyobrazić, zaktualizuję tę odpowiedź.Aktualizacja: Intuicja geometryczna
Oto wymyślona przeze mnie geometryczna intuicja. Załóżmy, że masz dwie zmienne i Y , które są średnią wyśrodkowany. (Zakładając, że średnia wyśrodkowana pozwala zignorować przecięcie, które nieco upraszcza intuicję geometryczną). Rozważmy najpierw geometrię regresji liniowej. W regresji liniowej modelujemy y w następujący sposób:x y y
.y=x β+ϵ
Rozważmy sytuację, w której mamy dwie obserwacje z powyższego procesu generowania danych podane przez pary ( ) i ( x 1 , x 2 ). Możemy je oglądać jako wektory w dwuwymiarowej przestrzeni, jak pokazano na poniższym rysunku:y1,y2 x1,x2
alt text http://a.imageshack.us/img202/669/linearregression1.png
Zgodnie z twierdzeniem Pitagorasa mamy:
Dlatego mamy wymaganą relację:
Mam nadzieję, że to pomaga.
źródło
Regresji oko aplet może mieć zastosowania, jeśli starasz się rozwijać trochę intuicji.
Pozwala wygenerować dane, a następnie odgadnąć wartość R , którą można następnie porównać z wartością rzeczywistą.
źródło