Przeglądam regresję liniową.
Podręcznik Greene'a stanowi:
Teraz oczywiście będą inne założenia dotyczące modelu regresji liniowej, takie jak . To założenie w połączeniu z założeniem liniowości (które w rzeczywistości definiuje ), nakłada strukturę na model.
Jednak założenie liniowości sama nie stawia żadnej struktury w naszym modelu, ponieważ może być zupełnie dowolna. Dla dowolnych zmiennych cokolwiek, bez względu na relację między nimi, możemy zdefiniować taki sposób, aby zachowało się założenie liniowości. Dlatego, liniowość „założenie” powinien być naprawdę nazywa się definicja z , niż założenie.
Dlatego zastanawiam się :
Czy Greene jest niechlujny? Czy rzeczywiście powinien napisać: ? Jest to „założenie liniowości”, które faktycznie nadaje strukturę modelowi.
Czy też muszę zaakceptować, że założenie liniowości nie nakłada struktury na model, a jedynie definiuje , gdzie inne założenia wykorzystają tę definicję do umieszczenia struktury w modelu?
Edycja : ponieważ wydaje się, że istnieje pewne zamieszanie wokół innych założeń, dodaję tutaj pełny zestaw założeń:
Pochodzi z Greene, Econometric Analysis, wydanie 7. p. 16
źródło
Odpowiedzi:
W pewnym sensie tak i nie. Z jednej strony, owszem, biorąc pod uwagę obecne współczesne badania przyczynowe , jest on niechlujny, ale podobnie jak większość podręczników ekonometrii, w tym sensie, że nie dokonują wyraźnego rozróżnienia wielkości przyczynowych i obserwacyjnych, co prowadzi do powszechnych nieporozumień, takich jak to pytanie. Ale z drugiej strony nie, to założenie nie jest niechlujne w tym sensie, że faktycznie różni się od zwykłego przyjęcia .E(y|X)=Xβ
Sednem sprawy jest tutaj różnica między oczekiwaniem warunkowym, , a równaniem strukturalnym (przyczynowym) y , a także jego oczekiwaniem strukturalnym (przyczynowym) E [ Y | d o ( X ) ]E(y|X) y E[Y|do(X)] . Założenie liniowości w Greene jest założeniem strukturalnym . Zobaczmy prosty przykład. Wyobraź sobie, że równanie strukturalne to:
Teraz pozwól . Wtedy mielibyśmy:E[ϵ|x]=δx−γx2
gdzie . Ponadto możemy napisać y = β ′ x + ϵ ′ i mielibyśmy E [ ϵ ′ | x ] = 0 . To pokazuje, że możemy mieć poprawnie określone liniowe oczekiwanie warunkowe E [ y | x ], który z definicji będzie miał zaburzenie ortogonalne, ale równanie strukturalne byłoby nieliniowe.β′=β+δ y=β′x+ϵ′ E[ϵ′|x]=0 E[y|x]
Założenie liniowości nie definiuje , to znaczy ϵ : = y - X β = y - E [ Y | d o ( X ) ] z definicji, gdzie ϵ oznacza odchylenia y od jego oczekiwań, gdy eksperymentalnie ustawiamy X ( patrz rozdział Pearl 5.4 ). Pozostałe założenia służą do identyfikacji parametrów strukturalnych (na przykład założenie egzogeniczności ϵϵ ϵ:=y−Xβ=y−E[Y|do(X)] ϵ y X ϵ pozwala zidentyfikować oczekiwanie strukturalne z warunkowym oczekiwaniem E [ Y | X ] ) lub w celu wyprowadzenia właściwości statystycznych estymatorów (na przykład założenie homoskedastyczności gwarantuje, że OLS jest NIEBIESKI, założenie normalności ułatwia uzyskanie wyników „skończonej próbki” do wnioskowania itp.).E[Y|do(X)] E[Y|X]
Twoje stwierdzenie dotyczy ogólnie głównego problemu wnioskowania przyczynowego! Jak pokazano w prostym przykładzie powyżej, można gotować zaburzenia strukturalne, które mogłyby spowodować oczekiwanie warunkowego podane x liniowe. Zasadniczo kilka różnych modeli strukturalnych (przyczynowych) może mieć ten sam rozkład obserwacyjny, a nawet przyczynowość bez obserwowanego związku. Dlatego w tym sensie masz rację --- potrzebujemy więcej założeń dotyczących ϵ , aby wprowadzić „więcej struktury” do problemu i zidentyfikować parametry strukturalne β na podstawie danych obserwacyjnych.y x ϵ β
Dygresja
Warto wspomnieć, że większość podręczników ekonometrycznych jest myląca, jeśli chodzi o rozróżnienie między regresją a równaniami strukturalnymi i ich znaczeniem. Zostało to ostatnio udokumentowane. Tutaj możesz sprawdzić artykuł Chen i Pearl, a także obszerną ankietę Chrisa Aulda . Greene jest jedną z badanych książek.
źródło
zredagowane po komentarzach OP i Matthew Drury
Aby odpowiedzieć na to pytanie, zakładam, że Greene i OP mają na uwadze następującą definicję liniowości: Liniowość oznacza, że dla każdego wzrostu jednostkowego tego predyktora wynik jest zwiększany o beta ( ), niezależnie od zakresu możliwych wartości predyktora następuje wzrost o jedną jednostkę. Tj. Funkcja y = f ( x ) to y = a + b x, a nie np. Y = a + b x 2 lub y = a + s i n ( x )β y=f(x) y=a+bx y=a+bx2 y=a+sin(x) . Ponadto założenie to koncentruje się na betach, a zatem ma zastosowanie do predyktorów (inaczej zmiennych niezależnych).
Oczekiwanie reszt zależne od modelu to coś innego. Tak, to prawda, że matematyka regresji liniowej definiuje / próbuje zdefiniować E ( ϵ | X ) = 0 . Jest to jednak zwykle ustawiane w całym zakresie dopasowanych / przewidywanych wartości dla y . Jeśli spojrzysz na określone części predyktora liniowego i przewidywaną wartość y , możesz zauważyć heteroscedastyczność (obszary, w których zmiana ϵ jest większa niż gdzie indziej) lub obszary, w których E ( ϵ | X )E(ϵ|X) E(ϵ|X)=0 y y ϵ . Przyczyną tego może byćnieliniowe powiązanie x i y , ale nie jest to jedyny powód, dla któregomoże wystąpićheteroscedastyczność lub E ( ϵ | X ) ≠ 0 (patrz na przykład brak odchylenia predyktora).E(ϵ|X)≠0 x y E(ϵ|X)≠0
Z komentarzy: OP stwierdza, że „założenie liniowości nie ogranicza modelu w żaden sposób, biorąc pod uwagę, że epsilon jest arbitralny i może być dowolną funkcją XX”, na co się zgodziłbym. Myślę, że jest to wyjaśnione przez regresje liniowe zdolne do dopasowania do dowolnych danych, niezależnie od tego, czy założenie liniowości jest naruszone, czy nie. Spekuluję tutaj, ale to może być powód, dla którego Greene zdecydował się zachować błąd we wzorze - zapisując E ( ϵ | X ) = 0 na później - aby zaznaczyć, że przyjmując liniowość, y (a nie oczekiwana y ) można zdefiniować na podstawie X, ale utrzymuje pewien błąd ϵϵ E(ϵ|X)=0 y y X ϵ , bez względu na wartości . Mogę tylko mieć nadzieję, że później przekaże znaczenie E ( ϵ | X ) = 0 .ϵ E(ϵ|X)=0
W skrócie (co prawda, bez pełnego czytania książki Greene'a i sprawdzenia jego argumentacji):
źródło
Byłem trochę zdezorientowany powyższą odpowiedzią, dlatego dam jej jeszcze jedną szansę. Myślę, że pytanie nie dotyczy tak naprawdę „klasycznej” regresji liniowej, ale stylu tego konkretnego źródła. W części regresji klasycznej:
To jest absolutnie poprawne. Jak już powiedziałeś, równie dobrze może zabić relację liniową i zsumować coś całkowicie niezależnego od X , abyśmy w ogóle nie mogli obliczyć żadnego modelu.ϵ X
Nie chcę odpowiadać na pierwsze pytanie, ale pozwól mi podsumować założenia potrzebne do zwykłej regresji liniowej:
Załóżmy, że można zaobserwować (dostaniesz) punktów danych i y i ∈ R dla i = 1 , . . . , n . Musisz założyć, że dane ( x i , y i ) , które zaobserwowałeś, pochodzą z niezależnie, identycznie rozmieszczonych zmiennych losowych ( X i , Y i ) takich, że ...xi∈Rd yi∈R i=1,...,n (xi,yi) (Xi,Yi)
Istnieje ustalony (niezależny od ) β ∈ R d taki, że Y i = β X i + ϵ i dla wszystkich i, a zmienne losowe ϵ i są takie, żei β∈Rd Yi=βXi+ϵi i ϵi
są IID, jak również i ε i jest rozprowadzany jako N ( 0 , Ď ) ( σ muszą być niezależne od I , a)ϵi ϵi N(0,σ) σ i
Dla i Y = ( Y 1 , . . . , Y n ) podstawniki X , Y mają wspólny gęstości, to znaczy jedną zmienną losową ( X , Y ), ma gęstość f X , YX=(X1,...,Xn) Y=(Y1,...,Yn) X,Y (X,Y) fX,Y
Teraz możesz pobiec zwykłą ścieżką i wykonać obliczenia
dzięki zwykłej „dualności” między uczeniem maszynowym (minimalizacja funkcji błędów) a teorią prawdopodobieństwa (maksymalizacja prawdopodobieństw) maksymalizujesz w β, co w rzeczywistości daje zwykłe rzeczy „RMSE”.−logfY|X(y|x) β
Teraz, jak już powiedziano: jeśli autor cytowanej książki chce to powiedzieć (co musisz zrobić, jeśli kiedykolwiek będziesz w stanie obliczyć „najlepszą możliwą” linię regresji w podstawowej konfiguracji), to tak, musi uczynić to założenie na normalicity z gdzieś w książce.ϵ
Istnieją teraz różne możliwości:
Nie zapisuje tego założenia w książce. To błąd w książce.
Zapisuje to w formie „globalnej” uwagi, takiej jak „za każdym razem, gdy piszę wówczas ϵ są zwykle rozkładane ze średnią zero, chyba że podano inaczej”. Zatem IMHO jest złym stylem, ponieważ powoduje dokładnie zamieszanie, które teraz odczuwasz. Właśnie dlatego w każdym Twierdzeniu zapisuję założenia w jakiejś skróconej formie . Tylko wtedy każdy element konstrukcyjny może być postrzegany jako odrębny przedmiot.+ϵ ϵ
Jednak również w ścisłym sensie matematycznym błąd normalny jest czymś kanonicznym (rozkład z najwyższą entropią [po ustaleniu wariancji], stąd wytwarzanie najsilniejszych modeli), tak że niektórzy autorzy mają tendencję do pomijania tego założenia, ale mimo to używają go . Formalnie masz całkowitą rację: używają matematyki w „niewłaściwy sposób”. Ilekroć chcą wymyślić równanie dla gęstości jak wspomniano powyżej, muszą wiedzieć ϵ całkiem dobrze, w przeciwnym razie masz po prostu jego właściwości latające w każdym sensownym równaniu, które próbujesz zapisać.fY|X ϵ
źródło