Badam wzajemne oddziaływanie dwóch zmiennych ( i ). Istnieje duża korelacja liniowa między tymi zmiennymi przy . Ze względu na naturę problemu nie mogę nic powiedzieć o związku przyczynowym (czy powoduje czy na odwrót). Chciałbym zbadać odchylenia od linii regresji, aby wykryć wartości odstające. Aby to zrobić, mogę albo zbudować regresję liniową jako funkcję , albo na odwrót. Czy mój wybór zmiennej kolejności może wpłynąć na moje wyniki?
regression
outliers
linear-model
Jerzy
źródło
źródło
Odpowiedzi:
To z pewnością może (w rzeczywistości ma nawet znaczenie w odniesieniu do założeń dotyczących twoich danych - przyjmujesz jedynie założenia dotyczące rozkładu wyniku na podstawie zmiennej towarzyszącej). W tym świetle możesz znaleźć termin „odwrotna wariancja predykcji”. Tak czy inaczej regresja liniowa nie mówi nic o związku przyczynowym! W najlepszym razie możesz powiedzieć coś o związku przyczynowym poprzez staranne zaprojektowanie.
źródło
Aby przypadek był symetryczny, można cofnąć różnicę między dwiema zmiennymi ( ) w stosunku do ich średniej wartości.Δ x
źródło
Regresja standardowa minimalizuje pionową odległość między punktami a linią, więc przełączenie 2 zmiennych zminimalizuje teraz odległość poziomą (biorąc pod uwagę ten sam wykres rozproszenia). Inną opcją (która występuje pod kilkoma nazwami) jest zminimalizowanie odległości prostopadłej, można to zrobić za pomocą podstawowych składników.
Oto kod R, który pokazuje różnice:
Aby wyszukać wartości odstające, możesz po prostu wykreślić wyniki analizy podstawowych składników.
Możesz także spojrzeć na:
źródło
Twoje zmienne x1 i x2 są współliniowe. W obecności wielokoliniowości oszacowania parametrów są nadal obiektywne, ale ich wariancja jest duża, tzn. Twoje wnioskowanie na temat znaczenia oszacowań parametrów jest nieważne, a twoje przewidywania będą miały duże przedziały ufności.
Interpretacja oszacowań parametrów jest również trudna. W ramach regresji liniowej oszacowanie parametru na x1 jest zmianą Y dla zmiany jednostkowej x1, biorąc pod uwagę, że każda inna zmienna egzogeniczna w modelu jest utrzymywana na stałym poziomie. W twoim przypadku x1 i x2 są wysoce skorelowane i nie możesz utrzymać stałej x2, gdy zmienia się x1.
źródło