Biorąc pod uwagę dwie zmienne losowe i \ eta , możemy obliczyć ich „współczynnik korelacji” c i utworzyć linię najlepszego dopasowania między tymi dwiema zmiennymi losowymi. Moje pytanie brzmi: dlaczego?η c
1) Istnieją zmienne losowe, i które są zależne w najgorszy możliwy sposób, tj. i pomimo tego . Gdyby pomyśleć tylko o regresji liniowej, byłby na to całkowicie zaślepiony.
2) Dlaczego konkretnie liniowy? Istnieją inne rodzaje relacji, które mogą istnieć między zmiennymi losowymi. Po co wyróżniać tę spośród wszystkich innych?
regression
Nicolas Bourbaki
źródło
źródło
Odpowiedzi:
Zgadzam się, że nie wszystkie relacje są same w sobie liniowe, ale całkiem sporo relacji można liniowo przybliżyć. Widzieliśmy wiele takich przypadków w matematyce, takich jak szereg Taylora lub szereg Fouriera itp. Kluczową kwestią jest tutaj, powiedział geomatt22 w komentarzu, można ogólnie przekształcić dane nieliniowe i zastosować pewnego rodzaju transformację z funkcjami podstawowymi i linearyzować związek. Powodem, dla którego uniwersytety zajmują się tylko „wieloma modelami regresji liniowej” (w tym prostymi modelami regresji), jest to, że stanowią one element składowy modeli bardziej zaawansowanego poziomu, które są również liniowe.
Z matematycznego punktu widzenia, o ile można udowodnić, że pewne przybliżenie liniowe jest gęste w przestrzeni Hilberta, będzie można użyć przybliżenia do przedstawienia funkcji w przestrzeni.
źródło
Model, o którym mówisz, prosta regresja liniowa, czyli „linia najlepszego dopasowania” (tutaj mylę model i metodę szacowania), jest wprawdzie bardzo prosta (jak sama nazwa wskazuje). Po co studiować? Widzę wiele powodów. Poniżej zakładam, że pojęcie zmiennej losowej zostało co najmniej nieformalnie wprowadzone, ponieważ wspomniałeś o tym w swoim pytaniu.
źródło
Kolejnym powodem jest piękny sposób, w jaki regresja zapewnia jednolite traktowanie technik takich jak ANOVA. Dla mnie zwykłe „elementarne” leczenie ANOVA wydaje się dość niejasne, ale leczenie oparte na regresji jest krystalicznie czyste. Podejrzewam, że ma to wiele wspólnego ze sposobem, w jaki modele regresji jasno wyrażają pewne założenia, że w „elementarnych” metodach leczenia są milczące i niezbadane. Ponadto jasności pojęciowej oferowanej przez taką perspektywę jednoczącą towarzyszą podobne praktyczne korzyści, gdy przychodzi czas na wdrożenie metod w oprogramowaniu statystycznym.
Zasada ta dotyczy nie tylko ANOVA, ale także rozszerzeń takich jak ograniczone splajny sześcienne - które w szczególności dotyczą drugiego pytania.
źródło
Popularność regresji liniowej wynika częściowo z jej interpretowalności - to znaczy, że osoby nietechniczne mogą zrozumieć współczynniki parametrów tylko z niewielkim wyjaśnieniem. Daje to dużą wartość w sytuacjach biznesowych, w których użytkownicy końcowi wyników lub prognoz mogą nie mieć głębokiego zrozumienia matematyki / statystyki.
Tak, istnieją założenia i ograniczenia dotyczące tej techniki (jak w przypadku wszystkich podejść) i w wielu przypadkach może ona nie zapewniać najlepszego dopasowania. Ale regresja liniowa jest bardzo solidna i często może działać całkiem dobrze nawet w przypadku naruszenia założeń.
Z tych powodów zdecydowanie warto się uczyć.
źródło
Coś może nie być bezpośrednio powiązane.
Jeśli masz dwie serie i to , i jeśli podejrzewasz, że istnieje związek między i . Możesz utworzyć wykres między i aby zbadać ich związek.y c o v ( x , y ) = 0 x y y xx y cov(x,y)=0 x y y x
źródło