Poniższy wykres pokazuje współczynniki uzyskane z regresją liniową (ze mpg
zmienną docelową i wszystkimi innymi jako predyktorami).
Dla zestawu danych mtcars ( tu i tutaj ) zarówno ze skalowaniem danych, jak i bez:
Jak interpretować te wyniki? Zmienne hp
i disp
są ważne tylko wtedy, gdy dane są skalowane. Czy am
i qsec
równie ważne czy jest am
ważniejsza niż qsec
? Jaką zmienną należy powiedzieć, że są ważnymi wyznacznikami mpg
?
Dzięki za wgląd.
Odpowiedzi:
Fakt, że współczynniki hp i disp są niskie, gdy dane są nieskalowane, i wysoki, gdy dane są skalowane, oznacza, że zmienne te pomagają wyjaśnić zmienną zależną, ale ich wielkość jest duża, więc współczynniki w przypadku nieskalowanym muszą być niskie.
Jeśli chodzi o „ważność”, powiedziałbym, że bezwzględna wartość współczynników w przypadku skalowanym jest dobrą miarą ważności, bardziej niż w przypadku nieskalowanym, ponieważ tam wielkość zmiennej jest również istotna i powinna nie.
Oczywiście ważniejszą zmienną jest wt.
źródło
Nie można tak naprawdę mówić o znaczeniu w tym przypadku bez standardowych błędów; skalowane są według zmiennych i współczynników. Ponadto, każdy współczynnik jest uwarunkowany innymi zmiennymi w modelu, a kolinearność faktycznie wydaje się zwiększać znaczenie hp i disp.
Zmienne skalowania nie powinny w ogóle zmieniać znaczenia wyników. Rzeczywiście, kiedy przestawię regresję (z takimi, jakimi są zmienne i znormalizuję ją, odejmując średnią i dzieląc przez błędy standardowe), każde oszacowanie współczynnika (oprócz stałej) miało dokładnie taką samą statystykę t jak przed skalowaniem, a Test F o ogólnym znaczeniu pozostał dokładnie taki sam.
Oznacza to, że nawet jeśli wszystkie zmienne zostały przeskalowane tak, aby miały średnią zero i wariancję 1, nie ma jednego standardowego błędu dla każdego ze współczynników regresji, więc po prostu patrząc na wielkość każdego współczynnika w znormalizowana regresja wciąż wprowadza w błąd co do znaczenia.
Jak wyjaśnił David Masip, pozorna wielkość współczynników ma odwrotny związek z wielkością punktów danych. Ale nawet gdy współczynniki disp i hp są ogromne, nadal nie różnią się znacząco od zera.
W rzeczywistości hp i disp są ze sobą silnie skorelowane, r = 0,79, więc standardowe błędy tych współczynników są szczególnie wysokie w stosunku do wielkości współczynnika, ponieważ są tak współliniowe. W tej regresji robią dziwne przeciwwagę, dlatego ktoś ma współczynnik dodatni, a drugi ujemny; wydaje się, że to przypadek nadmiernego dopasowania i nie wydaje się znaczący.
Dobrym sposobem na sprawdzenie, które zmienne wyjaśniają największą zmienność mpg, jest (skorygowany) R-kwadrat. Jest to dosłownie procent wariancji y, co tłumaczy się zmiennością zmiennych x. (Skorygowany kwadrat R zawiera niewielką karę za każdą dodatkową zmienną x w równaniu, aby zrównoważyć przeregulowanie.)
Dobrym sposobem na sprawdzenie, co jest ważne - w świetle innych zmiennych - jest przyjrzenie się zmianie skorygowanego kwadratu R, kiedy pominiesz tę zmienną z regresji. Ta zmiana jest procentem wariancji zmiennej zależnej, którą ten czynnik wyjaśnia, po utrzymaniu stałej innych zmiennych. (Formalnie można sprawdzić, czy pominięte zmienne mają znaczenie za pomocą testu F ; w ten sposób działają stopniowe regresje dla wyboru zmiennych).
Aby to zilustrować, uruchomiłem pojedyncze regresje liniowe dla każdej ze zmiennych osobno, przewidując mpg. Sama zmienna wt wyjaśnia 75,3% wariancji mpg, a żadna pojedyncza zmienna nie wyjaśnia więcej. Jednak wiele innych zmiennych jest skorelowanych z wt i wyjaśnia niektóre z tych samych wariantów. (Użyłem solidnych błędów standardowych, które mogą prowadzić do niewielkich różnic w obliczeniach błędu standardowego i istotności, ale nie wpłyną na współczynniki lub R-kwadrat.)
Gdy wszystkie zmienne są tam razem, R-kwadrat wynosi 0,869, a skorygowany R-kwadrat wynosi 0,807. Tak więc, dodanie 9 dodatkowych zmiennych, aby dołączyć do wt, wyjaśnia kolejne 11% wariantu (lub zaledwie 5% więcej, jeśli poprawimy na przeregulowanie). (Wiele zmiennych wyjaśniło niektóre z tych samych zmian mpg, które robi wt.). W tym pełnym modelu jedynym współczynnikiem o wartości p poniżej 20% jest wt, przy p = 0,089.
źródło