Czy założenie liniowości w regresji liniowej jest jedynie definicją

10

Przeglądam regresję liniową.

Podręcznik Greene'a stanowi:

wprowadź opis zdjęcia tutaj wprowadź opis zdjęcia tutaj

Teraz oczywiście będą inne założenia dotyczące modelu regresji liniowej, takie jak . To założenie w połączeniu z założeniem liniowości (które w rzeczywistości definiuje ), nakłada strukturę na model.E(ϵ|X)=0ϵ

Jednak założenie liniowości sama nie stawia żadnej struktury w naszym modelu, ponieważ może być zupełnie dowolna. Dla dowolnych zmiennych cokolwiek, bez względu na relację między nimi, możemy zdefiniować taki sposób, aby zachowało się założenie liniowości. Dlatego, liniowość „założenie” powinien być naprawdę nazywa się definicja z , niż założenie.ϵX,yϵϵ

Dlatego zastanawiam się :

  1. Czy Greene jest niechlujny? Czy rzeczywiście powinien napisać: ? Jest to „założenie liniowości”, które faktycznie nadaje strukturę modelowi.E(y|X)=Xβ

  2. Czy też muszę zaakceptować, że założenie liniowości nie nakłada struktury na model, a jedynie definiuje , gdzie inne założenia wykorzystają tę definicję do umieszczenia struktury w modelu?ϵϵ


Edycja : ponieważ wydaje się, że istnieje pewne zamieszanie wokół innych założeń, dodaję tutaj pełny zestaw założeń:

wprowadź opis zdjęcia tutaj

Pochodzi z Greene, Econometric Analysis, wydanie 7. p. 16

użytkownik56834
źródło
4
Są to spostrzegawcze spostrzeżenia (+1). Szczerze mówiąc, uważam, że większość (jeśli nie wszyscy) autorów pracuje w ramach, w których samo znaczenie błędu addytywnego, takiego jak obejmuje założenie, że jego rozkład jest wyśrodkowany na 0 . ϵ0
whuber
2
@ Whuber, dodałem cały zestaw założeń. spójrz na A3. A3 wyjaśnia, że ​​jest wyśrodkowany na 0, co oznaczałoby, że Greene nie zakłada tego w A1, co pozostawia mi pytanie, czy A1 ma w ogóle jakąkolwiek logiczną treść, poza zdefiniowaniem . ϵ
user56834
2
Zamierzonym znaczeniem listy założeń jest to, że mają one charakter zbiorowy, a nie osobno. To nie wykazuje żadnej „niechlujstwa”.
whuber
2
@AdamO, słowo „poprawne” wydaje mi się nie mieć dokładnego znaczenia. Staram się to dokładniej zrozumieć. Wydaje mi się, że najbardziej precyzyjnym sformułowaniem tego wszystkiego jest stwierdzenie, że założenie 1 należy nazwać „definicją ”, a wtedy wszystko ma sens. Albo czegoś mi brakuje, dlatego zadałem to pytanie. Niestety do tej pory nie widziałem bezpośredniej odpowiedzi na to pytanieϵ
56834
2
@ Programmer2134 otrzymujesz nieprecyzyjne odpowiedzi, ponieważ zadajesz nieprecyzyjne pytanie. Nie mówi się, że „kładzie się strukturę na modelu”. Jeżeli błędne średnią wzór ( jest używany), a reakcja jest charakteryzowany jako Y = f ( x ) + polaryzacji + błędu . a reszty są traktowane jako suma błędu i błędu. f(x)Y=f(x)+bias+error
AdamO

Odpowiedzi:

8
  1. Czy Greene jest niechlujny? Czy rzeczywiście powinien napisać: ? Jest to „założenie liniowości”, które faktycznie nadaje strukturę modelowi.E(y|X)=Xβ

W pewnym sensie tak i nie. Z jednej strony, owszem, biorąc pod uwagę obecne współczesne badania przyczynowe , jest on niechlujny, ale podobnie jak większość podręczników ekonometrii, w tym sensie, że nie dokonują wyraźnego rozróżnienia wielkości przyczynowych i obserwacyjnych, co prowadzi do powszechnych nieporozumień, takich jak to pytanie. Ale z drugiej strony nie, to założenie nie jest niechlujne w tym sensie, że faktycznie różni się od zwykłego przyjęcia .E(y|X)=Xβ

Sednem sprawy jest tutaj różnica między oczekiwaniem warunkowym, , a równaniem strukturalnym (przyczynowym) y , a także jego oczekiwaniem strukturalnym (przyczynowym) E [ Y | d o ( X ) ]E(y|X)yE[Y|do(X)] . Założenie liniowości w Greene jest założeniem strukturalnym . Zobaczmy prosty przykład. Wyobraź sobie, że równanie strukturalne to:

y=βx+γx2+ϵ

Teraz pozwól . Wtedy mielibyśmy:E[ϵ|x]=δxγx2

E[y|x]=βx

gdzie . Ponadto możemy napisać y = β x + ϵ i mielibyśmy E [ ϵ | x ] = 0 . To pokazuje, że możemy mieć poprawnie określone liniowe oczekiwanie warunkowe E [ y | x ], który z definicji będzie miał zaburzenie ortogonalne, ale równanie strukturalne byłoby nieliniowe.β=β+δy=βx+ϵE[ϵ|x]=0E[y|x]

  1. Czy muszę przyjąć, że założenie liniowości nie stawia strukturę modelu, ale tylko definiuje , gdzie inne założenia użyje tej definicji ε umieścić strukturę modelu?ϵϵ

Założenie liniowości nie definiuje , to znaczy ϵ : = y - X β = y - E [ Y | d o ( X ) ] z definicji, gdzie ϵ oznacza odchylenia y od jego oczekiwań, gdy eksperymentalnie ustawiamy X ( patrz rozdział Pearl 5.4 ). Pozostałe założenia służą do identyfikacji parametrów strukturalnych (na przykład założenie egzogeniczności ϵϵϵ:=yXβ=yE[Y|do(X)]ϵy Xϵpozwala zidentyfikować oczekiwanie strukturalne z warunkowym oczekiwaniem E [ Y | X ] ) lub w celu wyprowadzenia właściwości statystycznych estymatorów (na przykład założenie homoskedastyczności gwarantuje, że OLS jest NIEBIESKI, założenie normalności ułatwia uzyskanie wyników „skończonej próbki” do wnioskowania itp.).E[Y|do(X)]E[Y|X]

Jednak założenie liniowości sama nie stawia żadnej struktury w naszym modelu, ponieważ może być zupełnie dowolna. W przypadku jakichkolwiek zmiennych X , Y w ogóle, bez względu na to, co relacja między nimi możemy zdefiniować ε tak, że założenie liniowości trzyma.ϵX,yϵ

Twoje stwierdzenie dotyczy ogólnie głównego problemu wnioskowania przyczynowego! Jak pokazano w prostym przykładzie powyżej, można gotować zaburzenia strukturalne, które mogłyby spowodować oczekiwanie warunkowego podane x liniowe. Zasadniczo kilka różnych modeli strukturalnych (przyczynowych) może mieć ten sam rozkład obserwacyjny, a nawet przyczynowość bez obserwowanego związku. Dlatego w tym sensie masz rację --- potrzebujemy więcej założeń dotyczących ϵ , aby wprowadzić „więcej struktury” do problemu i zidentyfikować parametry strukturalne β na podstawie danych obserwacyjnych.yxϵβ

Dygresja

Warto wspomnieć, że większość podręczników ekonometrycznych jest myląca, jeśli chodzi o rozróżnienie między regresją a równaniami strukturalnymi i ich znaczeniem. Zostało to ostatnio udokumentowane. Tutaj możesz sprawdzić artykuł Chen i Pearl, a także obszerną ankietę Chrisa Aulda . Greene jest jedną z badanych książek.

Carlos Cinelli
źródło
Dzięki, to była odpowiedź, której szukałem. Kiedy więc powiesz, że założenie liniowości jest założeniem strukturalnym, co to dokładnie pociąga za sobą związek przyczynowy między i x ? Nadal może istnieć związek przyczynowy, prawda? Po prostu bezpośredni związek przyczynowy od x do y jest liniowy, prawda? Nadal może występować wysoce nieliniowy wpływ przyczynowy x na y do ϵ ? ϵxxyxy ϵ
user56834
1
@ Programmer2134 to kolejny obszar, w którym podręczniki ekonometrii są niechlujne, nie znajdziesz odniesienia do efektów bezpośrednich / pośrednich, mediacji itp. Jeśli równanie jest strukturalne, wówczas możemy mieć operacyjną definicję zaburzeń strukturalnych jako różnicę z oczekiwaną efekt przyczynowy X , to znaczy ϵ : = y - E [ Y | d o ( X ) ] = y - X β . Stąd też w tym sensie strukturalnym ε nie jest „spowodowane” przez X . To jednak nie mówi nam nic oyXϵ:=yE[Y|do(X)]=yXβϵXstowarzyszenie z i X , dla mogli mieć wspólne przyczyny. ϵX
Carlos Cinelli,
@ Nawiasem mówiąc, programmer2134, twoje obawy są na dobrej drodze, myślę, że Pearl's Primer na podstawie wnioskowania przyczynowego może być interesującym towarzyszem Greene'a!
Carlos Cinelli,
Nawiasem mówiąc, jakiś czas temu zacząłem czytać „Przyczynowość: modele, rozumowanie i wnioskowanie” autorstwa Pearl. Myślałem, że to bardzo interesujące, ale dla mnie było trochę abstrakcyjne. Nie przekroczyłem rozdziału 2. Czy uważasz, że „podkład na wnioskowanie przyczynowe” będzie bardziej odpowiedni? (tj. wprowadzać pojęcia bardziej intuicyjnie).
user56834
1
@ColorStatistics można użyć regresji do prognozowania, jasne, ale założenie, że egzogeniczność nie odgrywa żadnej roli. Właśnie to OP zaczął podejrzewać sam, pytając, dlaczego Greene po prostu nie napisał założenia, że jest liniowe. E(Y|x)
Carlos Cinelli,
0

zredagowane po komentarzach OP i Matthew Drury

Aby odpowiedzieć na to pytanie, zakładam, że Greene i OP mają na uwadze następującą definicję liniowości: Liniowość oznacza, że ​​dla każdego wzrostu jednostkowego tego predyktora wynik jest zwiększany o beta ( ), niezależnie od zakresu możliwych wartości predyktora następuje wzrost o jedną jednostkę. Tj. Funkcja y = f ( x ) to y = a + b x, a nie np. Y = a + b x 2 lub y = a + s i n ( x )βy=f(x)y=a+bxy=a+bx2y=a+sin(x). Ponadto założenie to koncentruje się na betach, a zatem ma zastosowanie do predyktorów (inaczej zmiennych niezależnych).

Oczekiwanie reszt zależne od modelu to coś innego. Tak, to prawda, że ​​matematyka regresji liniowej definiuje / próbuje zdefiniować E ( ϵ | X ) = 0 . Jest to jednak zwykle ustawiane w całym zakresie dopasowanych / przewidywanych wartości dla y . Jeśli spojrzysz na określone części predyktora liniowego i przewidywaną wartość y , możesz zauważyć heteroscedastyczność (obszary, w których zmiana ϵ jest większa niż gdzie indziej) lub obszary, w których E ( ϵ | X )E(ϵ|X)E(ϵ|X)=0yyϵ . Przyczyną tego może byćnieliniowe powiązanie x i y , ale nie jest to jedyny powód, dla któregomoże wystąpićheteroscedastyczność lub E ( ϵ | X ) 0 (patrz na przykład brak odchylenia predyktora).E(ϵ|X)0xyE(ϵ|X)0

Z komentarzy: OP stwierdza, że ​​„założenie liniowości nie ogranicza modelu w żaden sposób, biorąc pod uwagę, że epsilon jest arbitralny i może być dowolną funkcją XX”, na co się zgodziłbym. Myślę, że jest to wyjaśnione przez regresje liniowe zdolne do dopasowania do dowolnych danych, niezależnie od tego, czy założenie liniowości jest naruszone, czy nie. Spekuluję tutaj, ale to może być powód, dla którego Greene zdecydował się zachować błąd we wzorze - zapisując E ( ϵ | X ) = 0 na później - aby zaznaczyć, że przyjmując liniowość, y (a nie oczekiwana y ) można zdefiniować na podstawie X, ale utrzymuje pewien błąd ϵϵE(ϵ|X)=0yyXϵ, bez względu na wartości . Mogę tylko mieć nadzieję, że później przekaże znaczenie E ( ϵ | X ) = 0 .ϵE(ϵ|X)=0

W skrócie (co prawda, bez pełnego czytania książki Greene'a i sprawdzenia jego argumentacji):

  1. Greene prawdopodobnie odnosi się do stałych beta dla całego zakresu predyktora (nacisk należy położyć na beta w równaniach lub E ( ϵ | X ) = X β ;y=Xβ+ϵE(ϵ|X)=Xβ
  2. Założenie liniowości wprowadza pewną strukturę do modelu. Należy jednak pamiętać, że przekształcenia lub uzupełnienia, takie jak splajny przed modelowaniem, mogą sprawić, że powiązania nieliniowe będą zgodne ze strukturą regresji liniowej.
IWS
źródło
3
Jest to pomocne, ale odwołanie do ciągłości nie jest w żadnym wypadku potrzebne. Maszyna działa w ten sam sposób, jeśli jest oparty na predyktorach ( 0 , 1 ) . X(0,1)
Nick Cox
1
Napisałeś , ale myślę, że masz na myśli f ( x ) ,. f(y)f(x)
Nick Cox
@NickCox Zredagowałem te punkty.
IWS
1
Co rozumiesz przez normalność? Jeśli masz na myśli normalność, to jest ona nieprawidłowa, ponieważ epsilon nie musi być normalny, aby warunkowo oczekiwać zerowej wartości. Ale masz na myśli coś innego? Ponadto przyjmuje się, że tak, beta dla wszystkich obserwacji jest stała. A jak myślisz, co jest nie tak z moim argumentem, że założenie liniowości w żaden sposób nie ogranicza modelu, biorąc pod uwagę, że epsilon jest arbitralny i może być dowolną funkcją ? Zauważ, że wiem, czym jest heteroskedastyczność i że liniowość oznacza liniowy w parametrach, a nie w zmiennych. X
user56834
3
Nie zgadzam się z tym. Założenie oczekiwania nie ma związku z normalnością, ale jest absolutnie potrzebne, aby zrozumieć sens założenia liniowości strukturalnej. W przeciwnym razie, jak zauważono w op, założenie o liniowości jest bez znaczenia. Założenie o normalności jest zupełnie inną bestią i często jest niepotrzebne.
Matthew Drury
-1

Byłem trochę zdezorientowany powyższą odpowiedzią, dlatego dam jej jeszcze jedną szansę. Myślę, że pytanie nie dotyczy tak naprawdę „klasycznej” regresji liniowej, ale stylu tego konkretnego źródła. W części regresji klasycznej:

Jednak samo założenie liniowości nie nakłada żadnej struktury na nasz model

To jest absolutnie poprawne. Jak już powiedziałeś, równie dobrze może zabić relację liniową i zsumować coś całkowicie niezależnego od X , abyśmy w ogóle nie mogli obliczyć żadnego modelu.ϵX

Czy Greene jest niechlujny? Czy rzeczywiście powinien napisać: E(y|X)=Xβ

Nie chcę odpowiadać na pierwsze pytanie, ale pozwól mi podsumować założenia potrzebne do zwykłej regresji liniowej:

Załóżmy, że można zaobserwować (dostaniesz) punktów danych i y iR dla i = 1 , . . . , n . Musisz założyć, że dane ( x i , y i ) , które zaobserwowałeś, pochodzą z niezależnie, identycznie rozmieszczonych zmiennych losowych ( X i , Y i ) takich, że ...xiRdyiRi=1,...,n(xi,yi)(Xi,Yi)

  1. Istnieje ustalony (niezależny od ) β R d taki, że Y i = β X i + ϵ i dla wszystkich i, a zmienne losowe ϵ i są takie, żeiβRdYi=βXi+ϵiiϵi

  2. są IID, jak również i ε i jest rozprowadzany jako N ( 0 , Ď ) ( σ muszą być niezależne od I , a)ϵiϵiN(0,σ)σi

  3. Dla i Y = ( Y 1 , . . . , Y n ) podstawniki X , Y mają wspólny gęstości, to znaczy jedną zmienną losową ( X , Y ), ma gęstość f X , YX=(X1,...,Xn)Y=(Y1,...,Yn)X,Y(X,Y)fX,Y

Teraz możesz pobiec zwykłą ścieżką i wykonać obliczenia

fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd)nexp(i=1n(yiβxi)22σ)

dzięki zwykłej „dualności” między uczeniem maszynowym (minimalizacja funkcji błędów) a teorią prawdopodobieństwa (maksymalizacja prawdopodobieństw) maksymalizujesz w β, co w rzeczywistości daje zwykłe rzeczy „RMSE”.logfY|X(y|x)β

Teraz, jak już powiedziano: jeśli autor cytowanej książki chce to powiedzieć (co musisz zrobić, jeśli kiedykolwiek będziesz w stanie obliczyć „najlepszą możliwą” linię regresji w podstawowej konfiguracji), to tak, musi uczynić to założenie na normalicity z gdzieś w książce.ϵ

Istnieją teraz różne możliwości:

  • Nie zapisuje tego założenia w książce. To błąd w książce.

  • Zapisuje to w formie „globalnej” uwagi, takiej jak „za każdym razem, gdy piszę wówczas ϵ są zwykle rozkładane ze średnią zero, chyba że podano inaczej”. Zatem IMHO jest złym stylem, ponieważ powoduje dokładnie zamieszanie, które teraz odczuwasz. Właśnie dlatego w każdym Twierdzeniu zapisuję założenia w jakiejś skróconej formie . Tylko wtedy każdy element konstrukcyjny może być postrzegany jako odrębny przedmiot.+ϵϵ

    • Zapisuje to ściśle w części, którą cytujesz, a ty / my po prostu tego nie zauważyliśmy (również możliwość :-))

Jednak również w ścisłym sensie matematycznym błąd normalny jest czymś kanonicznym (rozkład z najwyższą entropią [po ustaleniu wariancji], stąd wytwarzanie najsilniejszych modeli), tak że niektórzy autorzy mają tendencję do pomijania tego założenia, ale mimo to używają go . Formalnie masz całkowitą rację: używają matematyki w „niewłaściwy sposób”. Ilekroć chcą wymyślić równanie dla gęstości jak wspomniano powyżej, muszą wiedzieć ϵ całkiem dobrze, w przeciwnym razie masz po prostu jego właściwości latające w każdym sensownym równaniu, które próbujesz zapisać.fY|Xϵ

Fabian Werner
źródło
3
błędy nie muszą być normalnie dystrybuowane, aby korzystać z OLS.
user56834
(-1) Błędy nie muszą być normalnie dystrybuowane. W rzeczywistości nie muszą nawet być niezależne ani identycznie rozmieszczone, aby oszacowanie parametru było obiektywne, a testy spójne. Twoje znacznie bardziej rygorystyczne specyfikacje są niezbędne, aby OLS był dokładnym testem.
AdamO
@AdamO: Ah? Jak zatem obliczyć prawdopodobieństwo? A raczej ... jeśli zostaniesz poproszony o wdrożenie regresji liniowej: jaką linię regresji wybierzesz, jeśli błąd nie jest normalnie rozłożony, a pojedyncze nie są niezależne? ϵi
Fabian Werner
1
@FabianWerner mój wybór modelu zależy od pytania, które należy zadać. Regresja liniowa szacuje trend pierwszego rzędu w zbiorze danych, „praktyczną zasadę” odnoszącą różnicę X do różnicy Y. Jeśli błędy nie są normalnie rozłożone, Lindeberg Feller CLT gwarantuje, że CI i PI są w przybliżeniu poprawne nawet w bardzo małych próbkach. Jeśli błędy nie są niezależne (a struktura zależności jest nieznana), szacunki nie są stronnicze, chociaż SE mogą być niepoprawne. Szacowanie błędu kanapki łagodzi ten problem.
AdamO,