Jestem nowy w statystyce i staram się zrozumieć różnicę między ANOVA a regresją liniową. Używam R. do zbadania tego. Czytałem różne artykuły o tym, dlaczego ANOVA i regresja są różne, ale wciąż takie same, i jak można to wizualizować itp. Myślę, że jestem tam dość, ale wciąż brakuje jednego bitu.
Rozumiem, że ANOVA porównuje wariancję w obrębie grup z wariancją między grupami, aby ustalić, czy istnieje jakakolwiek różnica między którąkolwiek z badanych grup. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )
W przypadku regresji liniowej znalazłem post na tym forum, który mówi, że to samo można przetestować, gdy sprawdzimy, czy b (nachylenie) = 0. ( Dlaczego naucza się / stosuje ANOVA, jakby to była inna metodologia badawcza niż regresja liniowa? )
Dla więcej niż dwóch grup znalazłem stronę internetową z informacją:
Hipoteza zerowa to:
Model regresji liniowej to:
Wynikiem regresji liniowej jest jednak przecięcie dla jednej grupy i różnica w stosunku do tego przecięcia dla pozostałych dwóch grup. ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )
Dla mnie wygląda to tak, że przecięcia są porównywane, a nie nachylenia?
Kolejny przykład, w którym porównują przechwytywanie zamiast nachyleń, można znaleźć tutaj: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )
Próbuję teraz zrozumieć, co faktycznie porównuje się z regresją liniową? stoki, przecięcia czy oba?
źródło
Odpowiedzi:
Twoje zamieszanie wiąże się z faktem, że musisz bardzo uważać, aby wyjaśnić, które przecięcia i nachylenia masz na myśli (przechwytywanie, co? Nachylenie, co?).
Rolę współczynnika manekina 0-1 w regresji można traktować zarówno jako nachylenie, jak i jako różnicę przechwyceń.
Uprośćmy wszystko, o ile to możliwe, rozważając przypadek dwóch prób.
Nadal możemy wykonać jednokierunkową ANOVA z dwiema próbkami, ale okazuje się, że zasadniczo jest taki sam, jak dwustronny test t z dwiema próbkami (przypadek równej wariancji).
Oto schemat sytuacji w populacji:
Jeśli , to liniowy model populacji toδ=μ2)-μ1
więc gdy (co ma miejsce w grupie 1), średnia wynosi a gdy (gdy jesteśmy w grupie 2) , średnia wynosi .x = 0 y μ1+ δ× 0 =μ1 x = 1 y μ1+ δ× 1 =μ1+μ2)-μ1=μ2)
To jest współczynnik nachylenia ( w tym przypadku ), a różnica średnich (i można by pomyśleć o tych środkach jako o przecięciach) jest taka sama.δ
Aby pomóc w konkretności, oto dwie próbki:
Jak wyglądają?
Jak wygląda test różnicy w środkach?
Jako test t:
Jako regresja:
W regresji widzimy, że składnik przechwytujący jest średnią grupy 1, a współczynnik grupy g2 (współczynnik „nachylenia”) jest różnicą średnich grupowych. Tymczasem wartość p dla regresji jest taka sama jak wartość p dla testu t (0,003976)
źródło