Typowe testy statystyczne jako modele liniowe

22

(AKTUALIZACJA: Zagłębiłem się w to i opublikowałem wyniki tutaj )

Lista nazwanych testów statystycznych jest ogromna. Wiele powszechnych testów opiera się na wnioskowaniu z prostych modeli liniowych, np. Test t dla jednej próbki to po prostu y = β + ε, który jest testowany względem modelu zerowego y = μ + ε, tzn. Że β = μ, gdzie μ jest trochę zerowe wartość - zazwyczaj μ = 0.

Uważam, że jest to o wiele bardziej pouczające do celów dydaktycznych niż nauka na pamięć nazwanych modeli, kiedy ich używać i ich założeń, jak gdyby nie mieli ze sobą nic wspólnego. Takie podejście promuje nie promuje zrozumienia. Nie mogę jednak znaleźć dobrego zasobu, który to zbierze. Bardziej interesują mnie równoważności między podstawowymi modelami niż metoda wnioskowania na ich podstawie. Chociaż, o ile widzę, testy współczynnika prawdopodobieństwa na wszystkich tych liniowych modelach dają takie same wyniki jak wnioskowanie „klasyczne”.

Oto równoważności, których się nauczyłem do tej pory, ignorując termin błędu εN(0,σ2) i zakładając, że wszystkie hipotezy zerowe są nieobecnością efektu:

Test t dla jednej próbki: y=β0H0:β0=0.

Test t dla próbki sparowanej: y2y1=β0H0:β0=0

Jest to identyczne z testem t dla jednej próby na różnicach par.

Test t dla dwóch próbek: y=β1xi+β0H0:β1=0

gdzie x jest wskaźnikiem (0 lub 1).

Korelacja Pearsona: y=β1x+β0H0:β1=0

Zwróć uwagę na podobieństwo do dwupróbkowego testu t, który jest po prostu regresją na binarnej osi x.

Korelacja Spearmana: rank(y)=β1rank(x)+β0H0:β1=0

Jest to identyczne z korelacją Pearsona dla xiy przekształconych rangą.

ANOVA jednokierunkowa: y=β1x1+β2x2+β3x3+...H0:β1,β2,β3,...=β

gdzie xi są wskaźnikami wybierającymi odpowiedni β (jeden x to 1; pozostałe to 0). Model może prawdopodobnie być sporządzone w postaci macierzowej jako a Y=βX .

Dwukierunkowa ANOVA: y=β1X1+β2X2+β3X1X2H0:β3=0

dla dwóch dwupoziomowych czynników. Powyżej βi są wektorami beta gdzie wybrany jest wskaźnikiem wektora Xi . H0 pokazany jest tu efekt interakcji.

Czy możemy dodać więcej „nazwanych testów” do tej listy modeli liniowych? Np. Regresja wielowymiarowa, inne testy „nieparametryczne”, testy dwumianowe lub RM-ANOVA?

AKTUALIZACJA: zadano pytania i odpowiedzi dotyczące ANOVA i testów t jako modeli liniowych tutaj na SO. Zobacz to pytanie i oznaczone pytania powiązane .

Jonas Lindeløv
źródło
1
Myślę, że te porównania są odpowiednie, ale w pewnym momencie istnieją również subtelne różnice. Np. Weźmy jednokierunkową ANOVA: gdzie regresja liniowa zapewni ci współczynniki, aw większości pakietów oprogramowania istotność na współczynnik przy testach Walda (co może nie być odpowiednie), ANOVA zapewni pojedynczą wartość p wskazującą, czy jakikolwiek jeden ze współczynników różni się znacznie od zera. Test ilorazu wiarygodności między modelem zerowym a modelem regresji będącym przedmiotem zainteresowania może być bardziej porównywalny. W związku z tym nie wyrównałbym całkowicie tych testów / modeli.
IWS
Słuszna uwaga; Zaktualizowałem pytanie, mówiąc: „Bardziej interesują mnie równoważności między podstawowymi modelami niż metoda wnioskowania na ich podstawie”. Testy ilorazu wiarygodności na jednostronnych ANOVA i terminach interakcji dają identyczne wartości p, jak w przypadku „klasycznych” analiz, o ile chodzi o moje testy.
Jonas Lindeløv,
1
W porządku, ale wnioskujmy na bok, zauważmy, że modele regresji zapewniają również dodatkową elastyczność podczas obsługi nieliniowości (chociaż transformacje mogą być również testowane za pomocą tych „nazwanych testów”, splajny to inna sprawa) lub obsługi heteroscedastyczności, nawet nie wspominając o rodzinie uogólnionych modeli, które również obsługują nieciągłe zmienne zależne. Niemniej jednak widzę, że wyjaśnienie nazwanych testów jako ograniczających odmian modeli regresji do celów dydaktycznych może mieć sens, więc +1
IWS
1
Czy korelacja rang Spearmana jest rzeczywiście modelem liniowym?
Martin Dietz
1
@MartinDietz: Tak, po przekształceniu rang xiy jest liniowy. Kod R:x = rnorm(100); y = rnorm(100); summary(lm(rank(x) ~ rank(y))); cor.test(x, y, method='spearman')
Jonas Lindeløv

Odpowiedzi:

6

Nie jest to wyczerpująca lista, ale jeśli uwzględnisz uogólnione modele liniowe, zakres tego problemu staje się znacznie większy.

Na przykład:

E[logit(p)|t]=β0+β1tH0:β1=0

The p×k jest model log-liniowy dla częstotliwości komórkowych podanych przez:

E[log(μ)]=β0+βi.+β.j+γiji,j>1H0:γij=0,i,j>1

Również test t dla nierównych wariancji jest dobrze aproksymowany przy użyciu solidnego oszacowania błędu Huber White.

AdamO
źródło