Kilka dni temu mój psycholog-badacz powiedział mi o swojej metodzie wyboru zmiennych do modelu regresji liniowej. Chyba nie jest dobrze, ale muszę poprosić kogoś innego, żeby się upewnić. Metoda jest następująca:
Spójrz na macierz korelacji między wszystkimi zmiennymi (w tym zmienną zależną Y) i wybierz te predyktory X, które najbardziej korelują z Y.
Nie wspomniał o żadnym kryterium. P: Czy miał rację?
[Myślę, że ta metoda selekcji jest zła z powodu wielu rzeczy, takich jak teoria, która mówi, które predyktory należy wybrać, a nawet pominąć zmienne odchylenie (OVB).]
regression
correlation
model-selection
Lil'Lobster
źródło
źródło
Odpowiedzi:
Jeśli z jakiegoś powodu zamierzasz uwzględnić tylko jedną zmienną w swoim modelu, to wybór predyktora, który ma najwyższą korelację ma kilka zalet. Spośród możliwych modeli regresji z tylko jednego czynnika prognostycznego, to jest model z najwyższym znormalizowanego współczynnika regresji oraz (ponieważ R 2 jest kwadratem R w prostej regresji liniowej ) najwyższy współczynnik korelacji .y R2 r
Ale nie jest jasne, dlaczego chcesz ograniczyć swój model regresji do jednego predyktora, jeśli masz dane dostępne dla kilku. Jak wspomniano w komentarzach, samo spojrzenie na korelacje nie działa, jeśli twój model może zawierać kilka zmiennych. Na przykład z tej macierzy rozproszenia można pomyśleć, że predyktorami dla które powinieneś uwzględnić w swoim modelu, są x 1 (korelacja 0,824) i x 2 (korelacja 0,782), ale x 3 (korelacja 0,134) nie jest użytecznym predyktorem.y x1 x2 x3
A oto przykład, który jest jeszcze gorszy:
źródło
Możesz przeprowadzić analizę regresji krokowej i pozwolić oprogramowaniu wybrać zmienne na podstawie wartości F. Możesz także spojrzeć na Skorygowaną wartość R ^ 2 przy każdym uruchomieniu regresji, aby sprawdzić, czy dodałeś nową zmienną przyczyniającą się do twojego modelu. Twój model może mieć problem wielokoliniowości, jeśli przejdziesz przez macierz korelacji i wybierzesz zmienne o silnej korelacji. Mam nadzieję że to pomoże!
źródło