Chcę nauczyć się ANOVA. Zanim zacznę się uczyć, jak działa algorytm (jakie obliczenia należy wykonać) i dlaczego działa, najpierw chciałbym wiedzieć, jaki problem rozwiązujemy za pomocą ANOVA lub jaką odpowiedź próbujemy odpowiedzieć. Innymi słowy: co to jest dane wejściowe i dane wyjściowe algorytmu?
Rozumiem, co wykorzystujemy jako wkład. Mamy zestaw liczb. Każda liczba zawiera wartości jednej lub więcej zmiennych kategorialnych (znanych również jako „czynniki”). Na przykład:
+------------+------------+-------+
| factor 1 | factor 2 | value |
+------------+------------+-------+
| "A" | "a" | 1.0 |
| "A" | "a" | 2.4 |
| "A" | "b" | 0.3 |
| "A" | "b" | 7.4 |
| "B" | "a" | 1.2 |
| "B" | "a" | 8.4 |
| "B" | "b" | 0.4 |
| "B" | "b" | 7.2 |
+------------+------------+-------+
Czy słuszne jest stwierdzenie, że ANOVA oblicza wartość p hipotezy zerowej, która stwierdza, że nie ma wpływu czynników na średnią wartości? Innymi słowy, podajemy powyższe dane algorytmowi, w wyniku czego otrzymujemy wartość p hipotezy zerowej?
W takim przypadku, jakiej miary faktycznie używamy do obliczenia wartości p. Na przykład możemy powiedzieć, że biorąc pod uwagę hipotezę zerową, M może być tak wysoka jak obserwowana (lub nawet wyższa) przypadkowo w 1% przypadków. Co to jest M?
Czy nie badamy również oddzielnie czynników ANOVA? Czy ANOVA może powiedzieć, że czynnik_1 ma wpływ, ale nie czynnik_2? Czy ANOVA może powiedzieć, że dla danego współczynnika wartości odpowiadające wartości „A”, „B” i „C” są statystycznie nierozróżnialne (mają na przykład tę samą średnią), ale wartość „D” ma wpływ?