R: Anova i regresja liniowa

9

Jestem nowy w statystyce i staram się zrozumieć różnicę między ANOVA a regresją liniową. Używam R. do zbadania tego. Czytałem różne artykuły o tym, dlaczego ANOVA i regresja są różne, ale wciąż takie same, i jak można to wizualizować itp. Myślę, że jestem tam dość, ale wciąż brakuje jednego bitu.

Rozumiem, że ANOVA porównuje wariancję w obrębie grup z wariancją między grupami, aby ustalić, czy istnieje jakakolwiek różnica między którąkolwiek z badanych grup. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )

W przypadku regresji liniowej znalazłem post na tym forum, który mówi, że to samo można przetestować, gdy sprawdzimy, czy b (nachylenie) = 0. ( Dlaczego naucza się / stosuje ANOVA, jakby to była inna metodologia badawcza niż regresja liniowa? )

Dla więcej niż dwóch grup znalazłem stronę internetową z informacją:

Hipoteza zerowa to:H.0:µ1=µ2)=µ3)

Model regresji liniowej to: y=b0+b1X1+b2)X2)+mi

Wynikiem regresji liniowej jest jednak przecięcie dla jednej grupy i różnica w stosunku do tego przecięcia dla pozostałych dwóch grup. ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )

Dla mnie wygląda to tak, że przecięcia są porównywane, a nie nachylenia?

Kolejny przykład, w którym porównują przechwytywanie zamiast nachyleń, można znaleźć tutaj: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )

Próbuję teraz zrozumieć, co faktycznie porównuje się z regresją liniową? stoki, przecięcia czy oba?

Paweł
źródło
Zobacz także stats.stackexchange.com/questions/268006/…
kjetil b halvorsen,

Odpowiedzi:

16

to wygląda tak, że przecięcia są porównywane, a nie nachylenia?

Twoje zamieszanie wiąże się z faktem, że musisz bardzo uważać, aby wyjaśnić, które przecięcia i nachylenia masz na myśli (przechwytywanie, co? Nachylenie, co?).

Rolę współczynnika manekina 0-1 w regresji można traktować zarówno jako nachylenie, jak i jako różnicę przechwyceń.

Uprośćmy wszystko, o ile to możliwe, rozważając przypadek dwóch prób.

Nadal możemy wykonać jednokierunkową ANOVA z dwiema próbkami, ale okazuje się, że zasadniczo jest taki sam, jak dwustronny test t z dwiema próbkami (przypadek równej wariancji).

Oto schemat sytuacji w populacji:

dwie grupy oznaczają regresję, sytuację populacji

Jeśli , to liniowy model populacji toδ=μ2)-μ1

y=μ1+δx+mi

więc gdy (co ma miejsce w grupie 1), średnia wynosi a gdy (gdy jesteśmy w grupie 2) , średnia wynosi .x=0yμ1+δ×0=μ1x=1yμ1+δ×1=μ1+μ2)-μ1=μ2)

To jest współczynnik nachylenia ( w tym przypadku ), a różnica średnich (i można by pomyśleć o tych środkach jako o przecięciach) jest taka sama.δ

Aby pomóc w konkretności, oto dwie próbki:

Group1:  9.5  9.8 11.8
Group2: 11.0 13.4 12.5 13.9

Jak wyglądają?

przykładowa fabuła

Jak wygląda test różnicy w środkach?

Jako test t:

    Two Sample t-test

data:  values by group
t = -5.0375, df = 5, p-value = 0.003976
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -4.530882 -1.469118
sample estimates:
mean in group g1 mean in group g2 
             9.9             12.9 

Jako regresja:

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   9.9000     0.4502  21.991 3.61e-06 ***
groupg2       3.0000     0.5955   5.037  0.00398 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 0.7797 on 5 degrees of freedom
Multiple R-squared:  0.8354,    Adjusted R-squared:  0.8025 
F-statistic: 25.38 on 1 and 5 DF,  p-value: 0.003976

W regresji widzimy, że składnik przechwytujący jest średnią grupy 1, a współczynnik grupy g2 (współczynnik „nachylenia”) jest różnicą średnich grupowych. Tymczasem wartość p dla regresji jest taka sama jak wartość p dla testu t (0,003976)

Glen_b - Przywróć Monikę
źródło
Dziękuję bardzo za ten niezwykle pomocny przykład. Właśnie zdałem sobie sprawę, że wciąż jest otwarte pytanie. Nie rozumiem, dlaczego nachylenie jest oznaczone jako μ2 − μ1? Czy nachylenie nie jest zdefiniowane jako m = delta Y / delta X?
Paul,
2
To jest; ale i a więc . Krótko mówiąc, gdy kodujesz jako 0/1, nachylenie jest różnicą. Δx=1-0=1Δy=(μ1+δ×1)-(μ1+δ×0)=δ=μ2)-μ1Δy/Δx=(μ2)-μ1)/1=μ2)-μ1
Glen_b
+1 graficzna ilustracja, dlaczego nachylenie jest równe różnicy na średnich, bardzo mi pomogło !!
Haitao Du