Jakie znaczenie ma macierz kapelusza, w analizie regresji?
Czy to tylko dla łatwiejszych obliczeń?
regression
multiple-regression
least-squares
użytkownik 31466
źródło
źródło
Odpowiedzi:
W badaniu regresji liniowej podstawowym punktem wyjścia jest proces generowania danych gdzie i deterministyczny. Po zminimalizowaniu kryterium najmniejszych kwadratów można znaleźć estymator dla , tj. . Po podłączeniu estymatora do początkowej formuły otrzymuje się jako liniowy model procesu generowania danych. Teraz można podstawić estymator nay= XB + u u∼N(0,σ2I) X Bˆ B Bˆ=(X′X)−1X′y yˆ=XBˆ Bˆ i dostajeyˆ= X (X′X)- 1X′y .
Tak więc jest w rzeczywistości macierzą projekcji. Wyobraź sobie, że bierzesz wszystkie zmienne w . Zmienne są wektorami i obejmują spację. Dlatego mnożąc przez , zaobserwowane wartości w na przestrzeń, która jest rozpięta przez zmienne w . Daje to szacunki dla i to jest powód, dla którego nazywa się to macierzą kapelusza i dlatego ma tak duże znaczenie. W końcu regresja liniowa jest niczym więcej niż projekcją, a dzięki macierzy projekcji nie możemy tylko obliczyć szacunków dlaH = X (X′X)- 1X′ X H. y y X y y ale także dla i może na przykład sprawdzić, czy naprawdę jest normalnie rozpowszechniany.u
Znalazłem to ładne zdjęcie w Internecie i wizualizuje tę projekcję. Pamiętaj, że jest używane zamiast . Ponadto obraz podkreśla, że wektor terminów błędów jest ortogonalny do projekcji, a zatem nie jest skorelowany z szacunkami dlaβ b y
źródło
Matryca kapeluszowa jest bardzo przydatna z kilku powodów:
źródło
To nic innego jak znalezienie „najbliższego” rozwiązania dla Ax = b, gdzie b nie znajduje się w przestrzeni kolumny A. Projektujemy b na przestrzeń kolumny i rozwiązujemy dla Ax (hat) = p, gdzie p jest rzutem b na przestrzeń kolumny.
źródło