W przypadku prostej regresji liniowej można uzyskać estymator najmniejszych kwadratów tak, że nie musisz znać aby oszacować
Załóżmy, że mam , jak uzyskać bez szacowania ? czy to nie jest możliwe?
W przypadku prostej regresji liniowej można uzyskać estymator najmniejszych kwadratów tak, że nie musisz znać aby oszacować
Załóżmy, że mam , jak uzyskać bez szacowania ? czy to nie jest możliwe?
Odpowiedzi:
Wyprowadzenie w notacji macierzowej
Począwszy ody=Xb+ϵ , co tak naprawdę jest takie samo jak
wszystko sprowadza się do minimalizacjie′e :
Minimalizacjae′e′ daje nam:
e ′ e = y ′ y - 2 b ′ X ′ y + b ′ X ′ X bminb e′e=y′y−2b′X′y+b′X′Xb
Ostatnia rzecz matematyczna, warunek drugiego rzędu dla minimum wymaga, aby macierz była dodatnia. To wymaganie jest spełnione, jeśli ma pełną rangę.X′X X
Dokładniejsze wyprowadzenie, które przechodzi przez wszystkie etapy w większym stopniu, można znaleźć pod http://economictheoryblog.com/2015/02/19/ols_estimator/
źródło
*
być+
? Czy nie powinno być zamiast aby dopasować wymiary?Możliwe jest oszacowanie tylko jednego współczynnika w regresji wielokrotnej bez szacowania innych.
Oszacowanie jest uzyskiwane poprzez usunięcie efektów z innych zmiennych, a następnie regresję reszt względem reszt . Jest to wyjaśnione i zilustrowane. Jak dokładnie kontroluje się inne zmienne? i jak znormalizować (a) współczynnik regresji? . Piękno tego podejścia polega na tym, że nie wymaga rachunku różniczkowego, algebry liniowej, można go wizualizować za pomocą tylko dwuwymiarowej geometrii, jest stabilny numerycznie i wykorzystuje tylko jedną podstawową ideę regresji wielokrotnej: wyjęcie (lub „kontrolowanie”) ) skutki pojedynczej zmiennej.x 2 y x 1β1 x2 y x1
W niniejszym przypadku regresję wielokrotną można wykonać za pomocą trzech zwykłych kroków regresji:
Zresetuj na x 2 (bez stałego terminu!). Niech dopasowanie będzie y = α y , 2 x 2 + δ . Szacunkowa wartość to α y , 2 = ∑ i y i x 2 iy x2 y=αy,2x2+δ Dlatego reszty wynosząδ=y-αy,2x2. Geometrycznieδjest tym, co pozostałozypoodjęciujego rzutu nax2.
Regresuj na x 2 (bez stałego wyrażenia). Niech dopasowanie będzie x 1 = α 1 , 2 x 2 + γ . Szacunkowa wartość to α 1 , 2 = ∑ i x 1 i x 2 ix1 x2 x1=α1,2x2+γ Resztki wynosząγ=x1-α1,2x2. Geometrycznieγjest pozostałością pox1poodjęciujego rzutu nax2.
Zresetuj na γ (bez stałego członu). Oszacowanie to β 1 = Σ i δ i γ iδ γ Dopasowanie będzieδ= β 1γ+ε. Geometrycznie p 1jest składnikiemhemibursztynianu(co oznaczarzx2wyprowadzony) wykierunku (co oznaczax1zx2wyjęty).
Zauważ, że nie zostało oszacowane.β2 Z łatwością można uzyskać z tego, co zostało do tej pory uzyskano (jak β 0 w zwykłym przypadku regresji można łatwo otrzymać z oszacowania nachylenia β 1 ). W ε o pozostałości na dwuwymiarowym regresji Y o x 1 oraz x 2 .β^0 β^1 ε y x1 x2
Równoległość ze zwykłą regresją jest silna: kroki (1) i (2) są analogami odejmowania średnich według zwykłego wzoru. Jeśli pozwolisz, by był wektorem jedności, w rzeczywistości odzyskasz zwykłą formułę.x2
Uogólnia to w sposób oczywisty do regresji z więcej niż dwóch zmiennych do oceny β 1 , regres y i x 1 niezależnie od wszystkich innych zmiennych, a następnie regresji ich pozostałości na siebie. W tym momencie nie oszacowano jeszcze żadnego z innych współczynników regresji wielokrotnej y .β^1 y x1 y
źródło
Zwykłe oszacowanie najmniejszych kwadratów jest funkcją liniową zmiennej odpowiedziβ . Mówiąc najprościej, OLS oszacowania współczynników, na „s, mogą być pisane tylko zmienną zależną ( Y I ”) i zmiennych niezależnych ( X k I „s).β Yi Xki
Aby wyjaśnić ten fakt ogólnym modelem regresji, musisz zrozumieć małą algebrę liniową. Załóżmy, że chcesz oszacować współczynniki w modelu regresji wielokrotnej,(β0,β1,...,βk)
gdzie dla I = 1 , . . . , n . Matryca wzór X to N x K tabeli, w której każda z kolumn zawiera n obserwacje k t h zmienna zależna X k . Można znaleźć wiele wyjaśnień oraz pochodne tutaj o wzorze wykorzystano do obliczenia szacunkowej współczynników beta =ϵi∼iidN(0,σ2) i=1,...,n X n×k n kth Xk , który jestβ^=(β^0,β^1,...,β^k)
przy założeniu, że istnieje odwrotność . Oszacowane współczynniki są funkcjami danych, a nie innych oszacowanych współczynników.(X′X)−1
źródło
Całkowity błąd kwadratowy, który popełniamy, wynosi teraz:
Ponieważ mamy model liniowy, wiemy, że:
Which can be rewritten in matrix notation as:
We know that
We want to minimize the total square error, such that the following expression should be as small as possible
This is equal to:
The rewriting might seem confusing but it follows from linear algebra. Notice that the matrices behave similar to variables when we are multiplying them in some regards.
We want to find the values ofβ such that this expression is as small as possible. We will need to differentiate and set the derivative equal to zero. We use the chain rule here.
This gives:
Such that finally:
So mathematically we seem to have found a solution. There is one problem though, and that is that(X′X)−1 is very hard to calculate if the matrix X is very very large. This might give numerical accuracy issues. Another way to find the optimal values for β in this situation is to use a gradient descent type of method. The function that we want to optimize is unbounded and convex so we would also use a gradient method in practice if need be.
źródło
A simple derivation can be done just by using the geometric interpretation of LR.
Linear regression can be interpreted as the projection ofY onto the column space X . Thus, the error, ϵ^ is orthogonal to the column space of X .
Therefore, the inner product betweenX′ and the error must be 0, i.e.,
Which implies that,
Now the same can be done by:
(1) ProjectingY onto X2 (error δ=Y−X2D^ ), D^=(X′2X2)−1X′2y ,
(2) ProjectingX1 onto X2 (error γ=X1−X2G^ ), G^=(X′1X1)−1X1X2 ,
and finally,
(3) Projectingδ onto γ , β^1
źródło