Różnica między analizą regresji a analizą wariancji?

21

Uczę się teraz o analizie regresji i analizie wariancji.

W analizie regresji masz jedną zmienną ustaloną i chcesz wiedzieć, jak ta zmienna idzie z drugą zmienną.

W analizie wariancji chcesz wiedzieć na przykład: Jeśli ta konkretna karma dla zwierząt wpływa na masę zwierząt ... SO jeden ustalony var i wpływ na inne ...

Czy to dobrze, czy źle, proszę pomóżcie mi ...

Le Max
źródło

Odpowiedzi:

25

Załóżmy, że twój zestaw danych składa się ze zbioru (xi,yi) dla i=1,,n i chcesz spojrzeć na zależność y od x .

Załóżmy, że znaleźć wartości α i β z α i β które minimalizują resztę sumy kwadratów n Ď i = 1 ( R i - ( α + β x i ) ) 2 . Następnie się y = α + β x być przewidywane Y -wartość dla każdego (niekoniecznie obserwowane już) x -wartość. To regresja liniowa.α^β^αβ

i=1n(yi(α+βxi))2.
y^=α^+β^xyx

Rozważmy teraz rozkład całkowitej sumy kwadratów zn-1stopniach swobody, w "wyjaśnia" oraz "części" niewyjaśnione: n Σ i = 1 ( ( α + β x I ) - ˉ Y ) 2 wyjaśnione+ n Σ i = 1 ( R i - ( α + β x i ) ) 2 niewyjaśnione. z1

i=1n(yiy¯)2where y¯=y1++ynn
n1
i=1n((α^+β^xi)y¯)2explained + i=1n(yi(α^+β^xi))2unexplained.
1i stopnie swobody. To analizy wariancji, a następnie uważa się, co, jak F statystyki F = Ď n i = 1 ( ( a + p x I ) - ˉ R ) 2 / 1n-2)Tastatystyka F testuje hipotezę zerowąβ=0.
F=i=1n((α^+β^xja)-y¯)2)/1ja=1n(yja-(α^+β^xja))2)/(n-2)).
β=0

y=α+βja
jakk1nk

Kilka dodatkowych punktów:

  • Dla niektórych matematyków powyższe sprawozdanie może sprawiać wrażenie, że całe pole jest tylko tym, co widać powyżej, więc może wydawać się tajemnicze, że zarówno regresja, jak i analiza wariancji są aktywnymi obszarami badawczymi. Wiele rzeczy nie pasuje do odpowiedzi odpowiedniej do opublikowania tutaj.
  • y=α+βx
Michael Hardy
źródło
5
@MichaelHardy Podczas gdy rozkład wariancji na składniki w regresji jest często określany jako analiza tabeli wariancji. To nie jest to, co statystycy zwykle rozumieją przez ANOVA. Metody 1) regresja liniowa, 2) analiza wariancji i 3) analiza kowariancji są kategoriami pod ogólnym nagłówkiem ogólnego modelu liniowego, regresja liniowa obejmuje ciągłe zmienne towarzyszące, ANOVA obejmuje tylko dyskretne grupy, a ANCOVA jest kombinacją ciągłych zmiennych towarzyszących i dyskretne grupy.
Michael R. Chernick,
1
Nieformalnie czasami mówi się w ten sposób, a moja odpowiedź tego nie powiedziała, ale należy wiedzieć, że (1) oszacowanie współczynników najmniejszych kwadratów odbywa się w jednym z dwóch problemów (predyktory ciągłe lub kategoryczne) i dekompozycji sumy kwadratów z odpowiadającymi im stopniami swobody --- tabela anova --- jest również wykonywana w jednym z dwóch problemów.
Michael Hardy,
5
Dzięki tej koncesji musisz przyznać, że nie ma nic złego w mojej odpowiedzi. Również terminy ANOVA, ANCOVA i regresja nie są warunkami nieformalnymi. Są one bardzo wyraźnie formalne i nie można powiedzieć OP, że ANOVA jest rozkładem wariancji w regresji. Fakt, że procedura statystyczna, którą ktoś nazwał anovą, może wykonać dowolny model liniowy, niczego nie dowodzi. W SAS proc reg zajmuje się tylko regresją, proc anova zajmuje się tylko analizą wariancji, tak jak ją zdefiniowałem, a proc glm jest tym, który robi obie te rzeczy.
Michael R. Chernick
1
.... a w R „lm (....)” podaje współczynniki regresji w obu sytuacjach, a „anova (lm (....))” daje rozkład sumy kwadratu i stopni swobody, w obu sytuacjach. Jeśli chodzi o „muszę się przyznać”, poniżej twojej odpowiedzi umieściłem kilka dalszych komentarzy. Z pewnością, jeśli zamierzasz wspomnieć o regresji logistycznej, byłoby lepiej, gdybyś powiedział, że skoro nie mówisz o regresji liniowej, słowo „regresja” jest bardzo szerokim terminem, który może obejmować wiele rzeczy.
Michael Hardy,
@MichaelHardy Zapraszam do komentowania mojego pytania zadanego na stronie stats.SE. Myślę, że twoja odpowiedź i moja odpowiedź na to pytanie są w pewnym sensie poprawne. Z pewnością sprzeciwiam się odrzuceniu mojej odpowiedzi. Chciałem uzyskać na ten temat opinie innych członków społeczności statystycznej.
Michael R. Chernick,
5

Główną różnicą jest zmienna odpowiedzi. Podczas gdy regresja logistyczna zajmuje się odpowiedzią binarną w analizie regresji liniowej, a także regresją nieliniową, zmienna odpowiedzi jest ciągła. Masz zmienną (zmienne) (zwane także zmiennymi zmiennymi), które mają funkcjonalny związek ze zmienną ciągłej odpowiedzi. W analizie wariancji odpowiedź jest ciągła, ale należy do kilku różnych kategorii (np. Grupy leczenia i grupy kontrolnej). W analizie wariancji szukasz różnicy w średniej odpowiedzi między grupami. W regresji liniowej patrzysz, jak zmienia się odpowiedź wraz ze zmianą zmiennych towarzyszących. Innym sposobem spojrzenia na różnicę jest stwierdzenie, że w regresji zmienne towarzyszące są ciągłe, podczas gdy w analizie wariancji są dyskretnym zestawem grup.

Michael R. Chernick
źródło
6
Uznałbym to pytanie za różnicę między regresją liniową a analizą wariancji; wprowadzenie regresji logistycznej wydaje się odsuwać od tematu. Jednak twoje ostatnie zdanie jest błędne. Analizę wariancji można przeprowadzić niezależnie od tego, czy predyktory są dyskretne czy ciągłe.
Michael Hardy
1
Rzeczywiście istnieją analizy predykcyjne w analizie wariancji. W twoim przykładzie predyktor jest kategoryczny, ale nie musi tak być. Analiza wariancji uwzględnia nie tylko problemy dotyczące „grup dyskretnych”.
Michael Hardy
3
@MichaelHardy Cofam się o krok, ponieważ kiedy sprawdzam swoje encyklopedie statystyczne, odnajduję odniesienie do analizy wariancji pod względem rozkładu wariancji w ogólnym modelu liniowym. Ale termin ten ma dwa znaczenia i dość często ANOVA różni się od ANCOVA i regresji w sposób, który opisałem. Dlatego OP powinien mieć świadomość obu terminów - tego, który odnosi się do piekła na temat składników wariancji w ogólnym modelu liniowym, i tego, który odnosi się do podklasy modeli liniowych, które obejmują tylko odrębne grupy.
Michael R. Chernick
2
Uważam, że użycie, którego używasz, jest nieformalne. Wspominanie o regresji logistycznej wydaje się dziwne, nie mówiąc o jednej z wielu „regresji”, gdy termin ten jest używany w szerokim sensie szacowania średniej lub przewidywanej wartości jednej zmiennej na podstawie drugiej, a następnie odróżniania jej od analizy wariancji . Ale pytanie o różnicę między modelami regresji liniowej a analizą wariancji wydaje się bardziej sensowne. Ale często nie ma pewności, co zamierzał oryginalny plakat.
Michael Hardy,
7
Jakiekolwiek by były twoje intencje, uważam komentarz „ Mam doktorat z statystyki ... ” za nieodpowiedni. Przede wszystkim nie rozwiązuje problemu. Apelowanie do władzy jest często używanym, ale bardzo błędnym podejściem do dowodzenia. Apelowanie do własnego autorytetu jest jeszcze bardziej problematyczne. Można to również interpretować jako wykazanie (nieumyślnie lub w inny sposób) braku szacunku dla @MichaelHardy (osoby, do której się zwracasz), która również ma doktorat z statystyki z bardzo renomowanego programu.
kardynał
2

Analiza wariancji (ANOVA) jest zbiorem statystycznej metody analizy obserwacji przyjętych za strukturę

yi=β1xi1+β2xi2++βpxip+ei, i=1(1)npβ1,β2,,βpe1,e2,,enxijei0σ2

E(yn×1)=Xβ,D(y)=σ2In

xijβjxijβj01

xijtTt2,eT itp., Mamy przypadek * analizy regresji. Ogólnie rzecz biorąc, w analizie regresji wszystkie czynniki są ilościowe i traktowane ilościowo.

Głównie są to dwa rodzaje analiz.

Argha
źródło
i=1(1)n
1
i=1(1)ni=1,2,,n
-1

W analizie regresji masz jedną zmienną ustaloną i chcesz wiedzieć, jak ta zmienna idzie z drugą zmienną.

W analizie wariancji chcesz wiedzieć na przykład: Jeśli ten konkretny pokarm dla zwierząt wpływa na masę zwierząt ... SO jeden ustalony var i wpływ na inne.

Aiza
źródło
1
Cześć Aiza, witaj w SE. Musisz to zmienić, aby dać więcej kontekstu i wyjaśnić, jakie jest pytanie.
Przestań szybko