Załóżmy, że twój zestaw danych składa się ze zbioru (xi,yi) dla i=1,…,n i chcesz spojrzeć na zależność y od x .
Załóżmy, że znaleźć wartości α i β z α i β które minimalizują resztę sumy kwadratów
n Ď i = 1 ( R i - ( α + β x i ) ) 2 .
Następnie się y = α + β x być przewidywane Y -wartość dla każdego (niekoniecznie obserwowane już) x -wartość. To regresja liniowa.α^β^αβ
∑i=1n(yi−(α+βxi))2.
y^=α^+β^xyx
Rozważmy teraz rozkład całkowitej sumy kwadratów
zn-1stopniach swobody, w "wyjaśnia" oraz "części" niewyjaśnione:
n Σ i = 1 ( ( α + β x I ) - ˉ Y ) 2 ⏟ wyjaśnione+ n Σ i = 1 ( R i - ( α + β x i ) ) 2 ⏟ niewyjaśnione.
z1
∑i = 1n( yja- y¯)2)gdzie y¯= y1+ ⋯ + ynn
n - 1∑i = 1n( ( α^+ β^xja) - y¯)2)wyjaśnił + ∑ i = 1n( yja- ( α^+ β^xja) )2)niewyjaśnione.
1i
stopnie swobody. To analizy wariancji, a następnie uważa się, co, jak F statystyki
F = Ď n i = 1 ( ( a + p x I ) - ˉ R ) 2 / 1n - 2Tastatystyka F testuje hipotezę zerową
β=0.
F=∑ni=1((α^+β^xi)−y¯)2/1∑nja=1(yi- (α^+β^xja))2)/ (n-2).
β= 0
y= α + βja
jakk−1n−k
Kilka dodatkowych punktów:
- Dla niektórych matematyków powyższe sprawozdanie może sprawiać wrażenie, że całe pole jest tylko tym, co widać powyżej, więc może wydawać się tajemnicze, że zarówno regresja, jak i analiza wariancji są aktywnymi obszarami badawczymi. Wiele rzeczy nie pasuje do odpowiedzi odpowiedniej do opublikowania tutaj.
- y=α+βx
Główną różnicą jest zmienna odpowiedzi. Podczas gdy regresja logistyczna zajmuje się odpowiedzią binarną w analizie regresji liniowej, a także regresją nieliniową, zmienna odpowiedzi jest ciągła. Masz zmienną (zmienne) (zwane także zmiennymi zmiennymi), które mają funkcjonalny związek ze zmienną ciągłej odpowiedzi. W analizie wariancji odpowiedź jest ciągła, ale należy do kilku różnych kategorii (np. Grupy leczenia i grupy kontrolnej). W analizie wariancji szukasz różnicy w średniej odpowiedzi między grupami. W regresji liniowej patrzysz, jak zmienia się odpowiedź wraz ze zmianą zmiennych towarzyszących. Innym sposobem spojrzenia na różnicę jest stwierdzenie, że w regresji zmienne towarzyszące są ciągłe, podczas gdy w analizie wariancji są dyskretnym zestawem grup.
źródło
Analiza wariancji (ANOVA) jest zbiorem statystycznej metody analizy obserwacji przyjętych za strukturę
Głównie są to dwa rodzaje analiz.
źródło
W analizie regresji masz jedną zmienną ustaloną i chcesz wiedzieć, jak ta zmienna idzie z drugą zmienną.
W analizie wariancji chcesz wiedzieć na przykład: Jeśli ten konkretny pokarm dla zwierząt wpływa na masę zwierząt ... SO jeden ustalony var i wpływ na inne.
źródło