Czy regresja liniowa może być znacząca, jeśli dane nie są liniowe?

11

Przeprowadziłem regresję liniową, która wyszła ze znaczącym wynikiem, jednak kiedy sprawdziłem liniowość wykresu rozrzutu, nie byłem pewien, czy dane są liniowe.

Czy istnieją inne sposoby testowania liniowości bez sprawdzania wykresu rozrzutu?

Czy regresja liniowa może być znacząca, jeśli nie jest liniowa?

[Edytowane w celu uwzględnienia wykresów rozrzutu]

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

IntoTheBlue
źródło
3
Może istnieć wiele interpretacji pytań i wielu odpowiedzi (ale w zasadzie odpowiedź brzmi tak we wszystkich przypadkach, a jak dowodzi twoich wyników, z pewnością jest to możliwe w twoim przypadku). Czy możesz pokazać wykres rozrzutu? Wtedy inni zrozumieją, co masz na myśli mówiąc, że dane nie są liniowe iw jakim sensie okazał się istotny wynik.
Sextus Empiricus
5
Zobacz stats.stackexchange.com/search?q=anscombe+quartet, aby uzyskać klasyczny zestaw prostych przykładów. Na stronie stats.stackexchange.com/a/152034/919 zamieściłem algorytm zdolny do konstruowania przykładów pasujących do prawie każdej okoliczności, o jakiej tylko można pomyśleć.
whuber
Oczywiście ignorowanie nolinearności, nawet gdy ogólny trend jest liniowy, może prowadzić do upośledzonego wnioskowania w zastosowaniu. Na przykład, jeśli prawdziwa zależność polega na tym, że spada gwałtownie, a następnie spłaszcza się na , liniowa interpretacja jest taka, że spada o pewną średnią wartość we wszystkich wartościach , podczas gdy prawdziwa zależność jest taka, że spada znacznie ostrzej niż znacznie węższy zakres , a na pozostały zakres pozostaje mniej więcej bez wpływu. Interpretacja liniowa byłaby zła dla efektów leczenia klinicznego lub efektów wydatków polityki. X Y X Y X XYXYXYXX
Alexis
Ponadto: regresja liniowa nie jest znacząca lub nie, ale raczej testy na przykład , , , może być znaczący lub nie, z pewnym stopniem niezależności. H 0 : β x = c H 0 : F = c H 0 : R 2 = cH0:β0=cH0:βx=cH0:F=cH0:R2=c
Alexis
Dzięki za odpowiedzi i przepraszam za powolną odpowiedź - byłem daleko od technologii! Zredagowałem post, aby uwzględnić wykresy punktowe dla tych znaczących regresji. Wszelkie porady dotyczące dalszego postępowania byłyby bardzo mile widziane.
IntoTheBlue,

Odpowiedzi:

18

Monotoniczne relacje nieliniowe prawie zawsze będą znaczące podczas modelowania jako modele liniowe. Jeśli związek jest nieliniowy i nie monotoniczny, to zależy od próbki.

Przykładami relacji monotonicznych jest logarytm i potęgi nieparzyste, takie jak . Przykładem związków niemonotonicznych są nawet moce i funkcje trygonomiczne, takie jak .y = x 3 y = x 2 y = sin xy=lnxy=x3y=x2y=sinx

Na przykład, jeśli twoja próbka jest dla , to zamodelowany jako będzie prawdopodobnie znaczący, zobacz wykres:y = sin x y xx[1,1]y=sinxyx

wprowadź opis zdjęcia tutaj

Jeśli jednak twoja próbka jest w , modelowanie liniowe w ogóle nie będzie działać: x[0,π]wprowadź opis zdjęcia tutaj

Aksakal
źródło
13
+1. Pamiętaj jednak, że poprawny termin to „monotoniczny”. „Monotonne” oznacza nudne i żmudne poprzez powtarzanie.
whuber
22
@whuber, zredagowałem moją odpowiedź, ale trzeba się zgodzić, że jest nudny i żmudny w porównaniu z pogodnym i radosnymsin xlnxsinx
Aksakal
+1 Sugeruję również zdefiniowanie, co oznacza monotoniczny.
Mark White
Dziękuję, zaktualizowałem post, aby uwzględnić wykresy rozrzutu. Wszelkie porady dotyczące dalszego postępowania byłyby bardzo mile widziane.
IntoTheBlue,
Nie wiem, czy istnieje test liniowości per se. Możesz dodać warunki regresji nieliniowej i przetestować ich znaczenie, np. . (xx¯)2
Aksakal
3

Tak, Aksakal ma rację, a regresja liniowa może być znacząca, jeśli prawdziwy związek jest nieliniowy. Regresja liniowa znajduje linię najlepszego dopasowania danych i po prostu sprawdza, czy nachylenie jest znacząco różne od 0.

Zanim spróbuję znaleźć statystyczny test nieliniowości, sugeruję zastanowienie się nad tym, co chcesz modelować w pierwszej kolejności. Czy spodziewasz się liniowej (nieliniowej) zależności między dwiema zmiennymi? Co dokładnie próbujesz odkryć? Jeśli ma sens założenie, że istnieje nieliniowa zależność, na przykład między prędkością samochodu i drogą hamowania, możesz dodać kwadratowe wyrażenia (lub inne transformacje) zmiennej niezależnej.

Również wizualna kontrola twoich danych (wykres rozrzutu) jest bardzo skuteczną metodą i niezbędnym pierwszym krokiem w twojej analizie.

Paweł
źródło
Prawie otrzymałem mój głos do momentu, aż „możesz dodać kwadratowe warunki (lub inne transformacje) swojej niezależnej zmiennej”. Relacja kwadratowa jest tak samo arbitralna jak relacja liniowa. Myślę, że regresje nieparametryczne, które przyjmują znacznie bardziej ogólne założenia dotyczące stosunku formy funkcjonalnej do (po czym następuje regresja liniowa i / lub nieliniowa, odpowiednio, jeśli potrzebne są oszacowania parametryczne), lub dopasowanie algorytmicznej krzywej (np. Ułamkowe wielomiany), być może nawet przejście do maksymalnego podejścia opartego na współczynniku informacji w celu uogólnienia wykraczającego poza relacje funkcjonalne. XYX
Alexis,
Również: Witamy w CV, Pawle!
Alexis,
2
@Alexis Masz rację. Ale dodanie wyrażenia kwadratowego jest wciąż powszechnie postrzeganą rekomendacją w niektórych tekstach jako szybki i brudny sposób sprawdzania nieliniowości (zrozumienie, że nikt nie sugeruje, że jest to jedyny lub nawet pierwszy sposób modelowania nieliniowości), więc jestem niezupełnie zaniepokojony tym fragmentem.
whuber
+1 @ Whuber Niestety, spotkałem wielu badaczy, studentów i wykładowców, którzy ćwiczyli dodawanie kwadratowego terminu jako pierwszego sprawdzianu poza spojrzeniem gałki rozrzutu jako „jak sprawdzić nieliniowość”, z ujemnym wynikiem interpretowanym jako „liniowy jest wystarczający „. (Kwadratyczne terminy mogą rzeczywiście być przydatne i wykorzystałem je w swoich własnych badaniach.) Wydaje mi się, że moje spojrzenie na „szybkie i brudne” jest takie, że rzeczy, które uczy się tak łatwo, stają się rygorystyczne dla przeważającej większości badaczy. .. Myślę, że regresje nieparametryczne są tak „łatwe” jak liniowe i lepsze narzędzie do eksploracji.
Alexis,
@Alexis Dziękuję. Myślę, że mnie źle zrozumiałeś. Nie zalecałem dodawania kwadratowych terminów w celu przetestowania nieliniowości, ale na pewno można zrobić przypadki dla kwadratowych terminów (lub innych transformacji. Dane ekonomiczne są często przekształcane logarytmicznie). Myślę, że należy wprowadzić rozróżnienie między analizą eksploracyjną i analizą wyjaśniającą. Jeśli istnieją uzasadnione podstawy, by zakładać, że istnieje związek kwadratowy, należy to sprawdzić. To, co proponujesz, jest bardziej eksploracyjne.
Paweł
-2

Zgadzam się ze wszystkim, co mówi Aksakal. Ale co do pierwszego pytania, myślę, że odpowiedzią jest korelacja. Korelacja mierzy stopień, w jakim istnieje liniowa zależność między zbiorami danych x i y.

meh
źródło
2
Czy przez „pierwsze pytanie” masz na myśli „Czy istnieją inne sposoby sprawdzenia liniowości bez sprawdzania wykresu rozrzutu?”? Jeśli tak, to w jaki sposób korelacja byłaby odpowiedzią i „wszystko, co mówi Aksakal”, jest jednocześnie poprawna? Np. nie jest liniowe, ale da znaczną korelację, jak słusznie zauważa Aksakal. Zatem korelacja nie może być odpowiedzią. Czy możesz wyjaśnić, co tu mówisz? y=lnx
gung - Przywróć Monikę
@gung Tak robię. Jakie stwierdzenie jego zdaniem uważasz za nieprawidłowe? Pozwólcie, że zasugeruję, że rozumiem, co oznaczają słowa liniowy i nieliniowy oraz że, podobnie jak w odpowiedzi Aksakala, naprawdę łatwo jest znaleźć przykłady zmiennych o ścisłej i nieliniowej zależności. Niemniej korelacja jest miarą zależności liniowej, a korelacja +/- 1 oznacza, że ​​relacja jest rzeczywiście liniowa. Każda mniejsza korelacja oznacza, że ​​relacja jest (niezupełnie) liniowa, ale może być wystarczająco bliska.
Meh
1
OP „wykonał regresję liniową, która wyszła ze znaczącym wynikiem”, ale wykres rozrzutu sugerował, że związek nie był liniowy. Korelacja byłaby prawdopodobnie również znacząca, w rzeczywistości, gdyby regresja miała tylko 1 zmienną X, wartości p z regresji i korelacja byłyby identyczne. Ale gdyby związek nie był liniowy pomimo znaczącej regresji, nadal nie byłby liniowy pomimo znaczącej korelacji. Zatem istotna korelacja nie dowodzi, że związek jest liniowy.
Gung - Przywróć Monikę
1
Co więcej, nie otrzymasz chyba że związek jest deterministyczny. Zatem możesz bardzo dobrze mieć zależności liniowe bez znajdowania . Oznacza to, że sprawdzenie, czy wartość wynosi nie jest dobrym sposobem na określenie tego. r = 1 r 1r=1r=1r1
gung - Przywróć Monikę
1
Może to zabrzmieć zbyt subtelnie, a nawet nędznie, ale (a) Zgadzam się, że korelacja jest sposobem pomiaru liniowości relacji dwuwymiarowej - w końcu to twierdzenie matematyczne - ale (b) jako ogólna propozycja, wątpię można to interpretować jako bardziej prymitywny sposób oceny nieliniowości. Dowody nieliniowości mogą być uderzające w zbiorze danych o wysokiej bezwzględnej korelacji próbki i mogą być całkowicie nieobecne w zbiorze danych o małej korelacji bezwzględnej. (cc @gung)
whuber