Dlaczego stosujemy jednostronny test F-test w analizie wariancji (ANOVA)?

Czy możesz podać powód zastosowania testu jednostronnego w teście analizy wariancji?

Dlaczego stosujemy test jednostronny - test F - w ANOVA?

anova f-test sums-of-squares f-distribution Cynderella
źródło

Kilka pytań, które pomogą ci myśleć ... Co oznacza bardzo negatywna statystyka t? Czy możliwa jest ujemna statystyka F? Co oznacza bardzo niska statystyka F? Co oznacza wysoka statystyka F?

russellpierce

Dlaczego masz wrażenie, że jednostronny test musi być testem F? Aby odpowiedzieć na twoje pytanie: Test F pozwala przetestować hipotezę z więcej niż jedną liniową kombinacją parametrów.

IMA

Czy chcesz wiedzieć, dlaczego ktoś używałby testu jednostronnego zamiast dwustronnego?

Jens Kouros,

@tree, co stanowi wiarygodne lub oficjalne źródło dla twoich celów?

Glen_b

@tree uwaga, że kwestia Cynderella jest tutaj nie na temat testu wariancji, ale konkretnie F-testu ANOVA - czyli test na równość środków . Jeśli interesują Cię testy równości wariancji, zostało to omówione w wielu innych pytaniach na tej stronie. (W przypadku testu wariancji tak, zależy ci na obu ogonach, jak to jasno wyjaśniono w ostatnim zdaniu tego rozdziału , tuż nad „ Właściwościami ”)

Glen_b

Odpowiedzi:

Testy F są najczęściej używane do dwóch celów:

w ANOVA, do testowania równości średnich (i różnych podobnych analiz); i
w testowaniu równości wariancji

Rozważmy kolejno:

1) Testy F w ANOVA (i podobnie, zwykłe rodzaje testów chi-kwadrat dla danych zliczania) są konstruowane tak, że im bardziej dane są zgodne z alternatywną hipotezą, tym większa jest statystyka testu, podczas gdy układ próbek dane, które wyglądają najbardziej spójnie z wartością null, odpowiadają najmniejszym wartościom statystyki testowej.

Rozważ trzy próbki (o wielkości 10, z jednakową wariancją próbki) i ustaw je tak, aby miały równe średnie próbki, a następnie przesuwaj je według różnych wzorów. Gdy zmienność próbki oznacza wzrost od zera, statystyka F staje się większa:

Układy 3 próbek i odpowiadające statystyki F.

Czarne linie ( ) to wartości danych. Ciężkie czerwone linie ( ) oznaczają środki grupy. $^{\:_|}$ $\color{red}{\mathbf{|}}$

Gdyby hipoteza zerowa (równość średnich populacji) była prawdziwa, można by oczekiwać pewnej zmienności średnich próbek i zwykle można oczekiwać, że współczynniki F z grubsza wynoszą około 1. Mniejsze statystyki F wynikają z próbek, które są bliżej siebie niż zwykle spodziewaj się ... więc nie zamierzasz dojść do wniosku, że populacja różni się.

To znaczy, dla ANOVA, odrzucisz hipotezę równości średnich, gdy uzyskasz niezwykle duże wartości F, i nie odrzucisz hipotezy równości średnich, gdy uzyskasz niezwykle małe wartości (może to oznaczać coś , ale nie że populacja oznacza różne).

Oto ilustracja, która może pomóc ci zobaczyć, że chcemy odrzucić tylko, gdy F znajduje się w górnym ogonie:

2) Testy F dla równości wariancji * (w oparciu o współczynniki wariancji). Tutaj stosunek dwóch oszacowań wariancji próbki będzie duży, jeśli wariancja próbki licznika jest znacznie większa niż wariancja w mianowniku, a stosunek będzie mały, jeśli wariancja próbki mianownika będzie znacznie większa niż wariancja w liczniku.

Oznacza to, że w celu przetestowania, czy stosunek wariancji populacji różni się od 1, należy odrzucić wartość zerową zarówno dla dużych, jak i małych wartości F.

* (Pomijając kwestię wysokiej wrażliwości na dystrybucyjne założenie tego testu (istnieją lepsze alternatywy), a także kwestię, że jeśli jesteś zainteresowany stosownością założeń równości wariancji ANOVA, twoja najlepsza strategia prawdopodobnie nie jest test formalny.)

Glen_b - Przywróć Monikę
źródło

@TaylerJones Levene test jest nieco bardziej niezawodny. Browne-Forsythe jest bardziej wytrzymały (ale traci trochę mocy blisko normy). Fligner-Killeen jeszcze raz. Przez kilka dziesięcioleci używałem Levene lub Browne-Forsythe nie więcej niż dwa razy. (Gdyby pojawił się ponownie, prawdopodobnie coś takiego jak Browne-Forsythe byłoby dla mnie odpowiednie, ale ogólnie nie mam sytuacji, w których sensowne byłoby testowanie kilku

wariantów

Przepraszam. Nadal nie rozumiem, dlaczego używamy jednoogonowego w ANOVA . Mówiąc dokładniej, z dyskusji zrozumiałem, że pod hipotezą zerową nie miałbym żadnego efektu terapeutycznego, w związku z czym będzie bliski , podczas gdy jeśli hipoteza alternatywna jest prawdziwa, Stosunek będzie większy. Ale jak to sugeruje, „że jest to powód zastosowania testu jednostronnego w ANOVA?”

F = \frac{M S_{T R E A T M E N T}}{M S_{E R R O R}}

$F=\frac{MS_{TREATMENT}}{MS_{ERROR}}$

1

$1$

F

$F$

czas

@tree brzmi to tak, jakbyś nie rozumiał bardziej ogólnie testowania hipotez, ale trudno jest dokładnie wiedzieć, gdzie. Mówisz, że rozumiesz, że jeśli dostaniesz dużą F, chcesz odrzucić, a jeśli dostaniesz małą F, nie chcesz odrzucić. Duże wartości F są tymi wartościami w górnym ogonie, podczas gdy małe wartości F są tymi wartościami w dolnym ogonie. Chcesz odrzucić tylko wtedy, gdy wartości są duże ... tj. W górnym ogonie, ale nie w dolnym. Jak możesz nie zobaczyć, że to jeden ogon? Dołączę kolejny spisek, który może pomóc.

Glen_b

@jeramy Moje komentarze odnoszą się do testów, które opierają się na współczynnikach wariancji (konkretnie powiedziałem „ Tutaj stosunek dwóch oszacowań wariancji będzie …”). Testy, których dotyczysz, szukają różnic lokalizacji w wartościach bezwzględnych z niektórych miar lokalizacji w celu wykrycia różnic w rozłożeniu; naturalnie działają one tak, jak działają testy różnic lokalizacji. Ponieważ starałem się pokazać przypadek, w którym byłoby zajrzeć na dolnym ogonie F brunatny-Forsythe (i kilka innych testów, które wyglądają różnice lokalizacji w pewnym stopniu odchylenia różnic wywnioskować spread) byłoby nie pomaga

Glen_b - Przywróć Monikę

@jeramy Dodałem kilka słów, aby było bardziej wyraźne. Możesz zauważyć, że chociaż Brown-Forsythe, Levene i tak dalej używają tabel F, rozkład statystyk testowych nie jest w rzeczywistości rozkładem F, nawet przy założeniu testu.

Glen_b

Należy zrozumieć, że celem ANOVA jest sprawdzenie, czy istnieją nierówności w środkach ... co oznacza, że mamy do czynienia z dużymi różnicami między próbkami (a zatem średnimi, ponieważ zmiany są obliczane ze średnich) w porównaniu z różnicami w próbkach (ponownie obliczony na podstawie średniej dla pojedynczej próbki). Kiedy różnice między próbkami są małe (co powoduje, że wartość F znajduje się po lewej stronie), nie ma to znaczenia, ponieważ różnica ta jest nieznaczna. Różnice między próbkami mają znaczenie, jeśli są znacznie wyższe niż zmiany wewnątrz, w takim przypadku wartość F byłaby większa niż 1, a zatem w prawym ogonie.

Pozostaje tylko pytanie, dlaczego umieścić cały poziom znaczenia w prawym ogonie, a odpowiedź jest znowu podobna. Odrzucenie następuje tylko wtedy, gdy współczynnik F znajduje się po prawej stronie i nigdy, gdy współczynnik F znajduje się po lewej stronie. Poziom istotności jest miarą błędu wynikającego z ograniczeń statystycznych. Ponieważ odrzucenie następuje tylko po prawej stronie, cały poziom istotności (ryzyko błędu błędnej konkluzji) jest utrzymany po prawej stronie. `

Prof Pradeep Pai
źródło

Oczekiwaną wartością średniego kwadratu (MS) w ramach leczenia jest wariancja populacyjna, podczas gdy oczekiwaną wartością dla MS między traktowaniami jest wariancja populacyjna PLUS wariancja leczenia. Zatem stosunek F = MSbetween / MSwithin jest zawsze większy niż 1 i nigdy nie mniejszy niż 1.

Ponieważ dokładność testu jednostronnego jest lepsza niż testu dwustronnego, wolimy zastosować test jednostronny.

Jeff Cotter
źródło

Nie wierzę, że twierdzenie w ostatnim zdaniu pierwszego akapitu jest poprawne ... E (licznik)> E (mianownik) nie implikuje tego licznika> mianownika.

Glen_b

Oprócz punktu Glen_b nie jestem pewien, czy „ponieważ precyzja testu 1-stronnego jest lepsza niż testu 2-ogonowego, wolimy używać testu 1-ogonowego”. Czy możesz wyjaśnić, co masz na myśli? Mówienie o precyzji wydaje mi się nie mieć sensu.

Silverfish,

Precyzja jest taka sama jak połowa przedziału ufności. W przypadku tej samej statystyki F test 1 ogona odrzuci hipotezę zerową o mniejszej wartości p (w rzeczywistości połowa). Odwrotnie, test 1 ogona może odrzucić hipotezę zerową z mniejszymi wartościami F-stat. To implikuje, że test 1 ogona może wykryć efekt leczenia przy mniejszej liczbie próbek lub przy większej częstości występowania przyczyny w próbce. To sprawia, że test 1 ogona jest bardziej pożądany, jeśli ktoś szuka efektu.

Jeff Cotter,

Tak, obliczona statystyka F może być mniejsza niż 1,0. Wniosek nie byłby jednak w stanie odrzucić hipotezy zerowej „braku efektów leczenia”. Dlatego nie ma krytycznego regionu w dolnym ogonie. Dlatego test F jest testem jednostronnym górnym. W ANOVA argument logiczny opiera się na oczekiwanych wartościach MS_treat i MS_error. Zgodnie z hipotezą „brak efektu leczenia” H0: E (MS_treat) = E (MS_error) = wariancja populacyjna. Każdy znaczący efekt leczenia powoduje HA: E (leczenie MS)> E (błąd MS). (Źródło dowolnego tekstu Montgomery dotyczącego ANOVA). Zatem HA oznacza test jednostronny.

Jeff Cotter,