W jaki sposób (sposoby?) Istnieje wizualne wyjaśnienie, czym jest ANOVA?
Wszelkie referencje, linki (pakiety R)? Będą mile widziane.
data-visualization
anova
teaching
Tal Galili
źródło
źródło
Odpowiedzi:
Osobiście lubię wprowadzać regresję liniową i ANOVA, pokazując, że wszystko jest takie samo i że modele liniowe dzielą całkowitą wariancję: mamy pewien wariant wariancji, który można wytłumaczyć interesującymi czynnikami oraz niewyjaśnione część (zwana „resztkową”). Ogólnie używam następującej ilustracji (szara linia dla całkowitej zmienności, czarne linie dla grupy lub indywidualnej zmienności specyficznej):
Podoba mi się również heplots pakietu R, Michaela domowych i John Fox, ale patrz też wizualne testów hipotezy w modelach wieloczynnikowa liniowej: Pakiet heplots dla R .
Standardowe sposoby wyjaśnienia, co faktycznie robi ANOVA, szczególnie w ramach modelu liniowego, są bardzo dobrze wyjaśnione w odpowiedziach samolotu na złożone pytania autorstwa Christensena, ale jest bardzo niewiele ilustracji. Metody statystyczne Saville'a i Wooda : podejście geometryczne zawiera kilka przykładów, ale głównie regresję. W Projekcie i analizie eksperymentów Montgomery'ego , który głównie skupiał się na DoE, są ilustracje, które lubię, ale patrz poniżej
(Te są moje :-)
Myślę jednak, że musisz poszukać podręczników na temat modeli liniowych, jeśli chcesz zobaczyć, jak suma kwadratów, błędów itp. Przekłada się na przestrzeń wektorową, jak pokazano na Wikipedii . Oszacowanie i wnioskowanie w ekonometrii autorstwa Davidsona i MacKinnona wydaje się mieć ładne ilustracje (pierwszy rozdział dotyczy geometrii OLS), ale przeglądam tylko francuskie tłumaczenie (dostępne tutaj ). Geometria regresji liniowej ma również kilka dobrych ilustracji.
Edytuj :
Ach, i właśnie pamiętam ten artykuł Roberta Pruzka, Nowa grafika dla jednostronnej ANOVA .
Edytuj 2
A teraz pakiet granova (wspomniany przez @ gd047 i powiązany z powyższym artykułem) został przeniesiony do ggplot, patrz granovaGG z ilustracją jednokierunkowej ANOVA poniżej.
źródło
Co powiesz na coś takiego?
Po Crawley (2005). Statystyka. Wprowadzenie do R: Wiley.
źródło
plot.design()
(ale twoje w ulepszonej wersji :-)Dziękuję za wspaniałą odpowiedź. Choć były bardzo pouczające, czułem, że korzystanie z nich na kursie, który obecnie prowadzę (cóż, TA'ing) będzie dla moich uczniów zbyt dużym obciążeniem. (Pomagam uczyć kursu BioStatistics dla studentów ze stopniem nauk medycznych)
Dlatego ostatecznie stworzyłem dwa obrazy (oba oparte są na symulacji), które moim zdaniem są przydatnym przykładem wyjaśniającym ANOVA.
Z przyjemnością przeczytam komentarze lub sugestie dotyczące ich ulepszenia.
Pierwszy obraz pokazuje symulację 30 punktów danych, rozdzielonych na 3 wykresy (pokazujące, w jaki sposób MST = Var jest rozdzielony na dane, które tworzą MSB i MSW:
Drugi obraz pokazuje 4 wykresy, każdy dla innej kombinacji wariancji i oczekiwań dla grup
źródło
Ponieważ w tym poście zbieramy pewne typy ładnych wykresów, oto kolejny, który niedawno znalazłem i może pomóc ci zrozumieć, jak działa ANOVA i jak generowana jest statystyka F. Grafika została utworzona przy użyciu pakietu granova w języku R.
źródło
Sprawdź prezentację Hadleya Wickhama ( pdf , mirror ) na ggplot. Na stronach 23–40 tego dokumentu opisuje interesujące podejście do wizualizacji ANOVA.
* Link pochodzi z: http://had.co.nz/ggplot2/
źródło
Świetne pytanie. Wiesz, bardzo długo walczyłem z owinięciem głowy wokół ANOVA. Zawsze wracam do intuicji „pomiędzy kontra wewnątrz” i zawsze próbowałem sobie wyobrazić, jak to by wyglądało w mojej głowie. Cieszę się, że to pytanie się pojawiło i byłem zaskoczony różnorodnym podejściem do tego w powyższych odpowiedziach.
W każdym razie, od dłuższego czasu (nawet lat) chciałem zebrać kilka działek w jednym miejscu, gdzie mogłem zobaczyć, co dzieje się jednocześnie z wielu różnych kierunków: 1) jak daleko od siebie są populacje , 2) jak daleko od siebie są dane , 3) jak duże są między nimi w porównaniu do wewnątrz , i 4) w jaki sposób porównuje się centralne i niecentralne rozkłady F?
W naprawdę świetnym świecie mogłem nawet bawić się suwakami, aby zobaczyć, jak zmienia się wielkość próby .
Więc bawiłem się
manipulate
poleceniem w RStudio i święta krowa, to działa! Oto jedna z fabuł, migawka, naprawdę:Jeśli masz RStudio, możesz uzyskać kod do wykonania powyższej fabuły (suwaki i wszystko)! na Github tutaj .
Po dłuższej zabawie z tym jestem zaskoczony, jak dobrze statystyka F wyróżnia grupy, nawet przy umiarkowanie małych próbkach. Kiedy patrzę na populacje, tak naprawdę nie są tak daleko od siebie (dla mojego oka), jednak słupek „wewnątrz” jest stale przyciemniany przez słupek „między”. Chyba czegoś się codziennie uczę.
źródło
Aby zilustrować, co się dzieje z jednokierunkową ANOVA, czasami korzystałem z apletu oferowanego przez autorów „Wstępu do praktyki statystyki”, który pozwala uczniom bawić się w ramach wariancji i pomiędzy nimi oraz obserwować ich wpływ na statystykę F. . Oto link (aplet jest ostatnim na stronie). Przykładowy zrzut ekranu:
Użytkownik kontroluje górny suwak, zmieniając pionowe rozłożenie trzech grup danych. Czerwona kropka u dołu przesuwa się wzdłuż wykresu wartości p, podczas gdy statystyka F pokazana poniżej jest aktualizowana.
źródło
Wygląda na to, że statek już płynął pod względem odpowiedzi, ale myślę, że jeśli jest to kurs wprowadzający, że większość prezentowanych tu wyświetlaczy będzie zbyt trudna do zrozumienia dla studentów wprowadzających ... a przynajmniej zbyt trudne do uchwycenia bez wstępnego wyświetlacza, który zapewnia bardzo uproszczone wyjaśnienie wariancji podziału. Pokaż im, w jaki sposób suma SST rośnie wraz z liczbą osób. Następnie, po pokazaniu, że napełnia się kilkoma podmiotami (być może dodając kilka razy w każdej grupie), wyjaśnij, że SST = SSB + SSW (chociaż wolę nazywać to SSE od samego początku, ponieważ pozwala uniknąć pomyłki, gdy przechodzisz do testu wewnątrz tematów IMO ). Następnie pokaż im wizualną reprezentację podziału wariancji, np. Duży kwadrat oznaczony kolorem, abyś mógł zobaczyć, jak SST jest zrobiony z SSB i SSW. Następnie,
źródło
Oto niektóre reprezentacje sytuacji, w której ANOVA zawrze na różnym poziomie dopasowania między i .XY X
źródło