Tabele nieprzewidziane: jakie testy zrobić i kiedy?

17

Chciałbym zobaczyć rozszerzenie tej dyskusji na temat starej debaty chi-sq vs. debata testowa Fishera, poszerzając nieco zakres. Jest wiele testów sprawdzających interakcje w tabeli awaryjnej, co wystarczy, aby zakręcić głową. Mam nadzieję uzyskać wyjaśnienie, jakiego testu powinienem użyć i kiedy, i oczywiście wyjaśnienie, dlaczego jeden test powinien być lepszy od drugiego.

Moim obecnym problemem jest klasyczny przypadek , ale mile widziane są odpowiedzi dotyczące wyższych wymiarów, podobnie jak wskazówki dotyczące wdrażania różnych rozwiązań w języku R, przynajmniej w przypadkach, w których nie jest oczywiste, jak postępować.n×m

Poniżej wymieniłem wszystkie testy, o których wiem; Mam nadzieję, że ujawniając moje błędy, można je poprawić.

  • . Stary tryb gotowości. Istnieją tutaj trzy główne opcje:χ2

    • Korekta wbudowana w R dla tabel 2x2: „połowa jest odejmowana od wszystkich różnic ”. Czy zawsze powinienem to robić?|OE|
    • χ 2 Testuj, nie wiesz, jak to zrobić w R.N1χ2)
    • Symulacja Monte Carlo. Czy to zawsze jest najlepsze? Dlaczego R nie daje mi df, kiedy to robię?
  • Dokładny test Fishera .

    • Tradycyjnie zalecane, gdy jakakolwiek komórka ma być <4, ale najwyraźniej niektórzy kwestionują tę radę.
    • Czy (zwykle fałszywe) założenie, że marginesy są naprawione, jest naprawdę największym problemem w tym teście?
  • Dokładny test Barnarda

    • Kolejny dokładny test, tyle że nigdy o nim nie słyszałem.
  • Regresja Poissona

    • Jedną z rzeczy, które zawsze mylą mnie z glms, jest dokładnie to, jak wykonać te testy istotności, więc pomoc w tym będzie mile widziana. Czy najlepiej jest porównywać modele zagnieżdżone? Co z testem Walda dla konkretnego predyktora?
    • Czy naprawdę powinienem zawsze robić regresję Poissona? Jaka jest praktyczna różnica między tym a testem ?χ2
JVMcDonnell
źródło

Odpowiedzi:

13

To dobre pytanie, ale duże. Nie sądzę, żebym mógł udzielić pełnej odpowiedzi, ale wyrzucę trochę jedzenia do namysłu.

Po pierwsze, pod twoim najwyższym punktem, poprawka, o której mówisz, jest znana jako korekta ciągłości Yatesa . Problem polega na tym, że obliczamy dyskretną statystykę wnioskowania:
(Jest dyskretny, ponieważ przy skończonej liczbie wystąpień przedstawionych w tabeli awaryjnej istnieje skończona liczba możliwych zrealizowanych wartości, które może przyjąć ta statystyka). Niezależnie od tego faktu, porównuje się go zciągłymrozkładem odniesienia (mianowicie,rozkładχ2ze stopniami swobody(r-1)(c-1)). To z konieczności prowadzi do niedopasowania na pewnym poziomie. Przy szczególnie małym zestawie danych i jeśli niektóre komórki mają oczekiwane wartości mniejsze niż 5, możliwe jest, że wartość p może być zbyt mała. Korekta Yatesa dostosowuje się do tego.

χ2=(OE)2mi

χ2) (r1)(c-1)

Jak na ironię ten sam podstawowy problem (niedopasowanie dyskretne-ciągłe) może prowadzić do zbyt wysokich wartości p . W szczególności wartość p jest tradycyjnie definiowana jako prawdopodobieństwo otrzymania danych, które są tak ekstremalne lub większeniż zaobserwowane dane. Przy ciągłych danych rozumie się, że prawdopodobieństwo uzyskania jakiejkolwiek dokładnej wartości jest znikomo małe, a zatem naprawdę mamy prawdopodobieństwo, że dane są bardziej ekstremalne. Jednak w przypadku danych dyskretnych istnieje skończone prawdopodobieństwo uzyskania danych takich jak twoje. Tylko obliczenie prawdopodobieństwa uzyskania bardziej ekstremalnych danych niż twoje daje nominalne wartości p, które są zbyt niskie (co prowadzi do zwiększenia błędów typu I), ale uwzględnienie prawdopodobieństwa otrzymania danych takich samych jak twoje prowadzi do nominalnych wartości p, które są zbyt wysokie (co doprowadziłoby do zwiększenia błędów typu II). Fakty te podpowiadają ideę średniej wartości p . Zgodnie z tym podejściem wartość p oznacza prawdopodobieństwo danych bardziej ekstremalnych niż twoje plus połowa prawdopodobieństwo danych jest takie samo jak twoje.

Jak wskazano, istnieje wiele możliwości testowania danych tabeli awaryjnej. Najbardziej kompleksowe podejście do zalet i wad różnych podejść znajduje się tutaj . Ten papier jest specyficzny dla tabel 2x2, ale nadal możesz wiele się dowiedzieć o opcjach danych tabeli awaryjnej, czytając go.

Myślę też, że warto poważnie rozważyć modele. Starsze testy, takie jak chi-kwadrat, są szybkie, łatwe i zrozumiałe dla wielu osób, ale nie pozostawiają tak kompleksowego zrozumienia danych, jakie można uzyskać po zbudowaniu odpowiedniego modelu. Jeśli uzasadnione jest myślenie o wierszach [kolumnach] tabeli nieprzewidzianych zdarzeń jako zmiennej odpowiedzi, a kolumnach [wierszach] o zmiennych objaśniających / predyktorów, podejście do modelowania jest dość łatwe. Na przykład, jeśli masz tylko dwa wiersze, możesz zbudować model regresji logistycznej ; jeśli jest kilka kolumn, możesz użyć kodowania komórki referencyjnej (kodowanie pozorowane), aby zbudować model typu ANOVA. Z drugiej strony, jeśli masz więcej niż dwa wiersze, wielomianowa regresja logistycznamoże być używany w ten sam sposób. Jeśli wiersze mają wewnętrzny porządek, porządkowa regresja logistyczna zapewni lepszą wydajność niż wielomian. Moim zdaniem model logarytmiczno-liniowy (regresja Poissona) jest prawdopodobnie mniej istotny, chyba że masz tabele zdarzeń z więcej niż dwoma wymiarami.

Aby uzyskać kompleksowe omówienie takich tematów, najlepsze źródła to książki Agresti: albo jego pełne omówienie (bardziej rygorystyczne), jego wstępna książka (łatwiejsza, ale wciąż obszerna i bardzo dobra), albo być może także jego książka porządkowa .

sol2)-test

sol2)=Oln(Omi)

gung - Przywróć Monikę
źródło
1
To było świetne wyjaśnienie podstawowego problemu, dzięki! W przeszłości powiedziano mi również, że tekst Agresti jest świetnym źródłem informacji, więc to sprawdzę.
JVMcDonnell
4

Spróbuję odpowiedzieć na niektóre z twoich pytań najlepiej jak potrafię z mojej perspektywy. Po pierwsze, test Fishera-Irwina to tylko inna nazwa testu Fishera. Poza tym, że czasami jest on intensywny obliczeniowo, zazwyczaj wolę stosować test Fishera. Jeśli występuje jakikolwiek problem z tym testem, warunkuje on krańcowe sumy. Piękno testu polega na tym, że zgodnie z hipotezą zerową zbiór tabel kontyngencji o takich samych wartościach krańcowych jak tabela obserwowana ma rozkład hipergeometryczny. Niektórzy twierdzą, że nie widzą uzasadnienia dla ograniczenia rozważania do tabel o takich samych wartościach krańcowych.

Test chi-kwadrat Pearsona jest bardzo często używany do testowania asocjacji w tabelach nieprzewidzianych zdarzeń. Podobnie jak wiele innych testów, jest przybliżony, więc poziom istotności nie zawsze jest dokładny. Cochran wykazał, że w małych próbkach, gdy niektóre komórki są bardzo rzadkie (np. Zawierające mniej niż 5 przypadków w niektórych komórkach), przybliżenie będzie słabe.

Istnieje wiele innych przybliżonych testów. Zazwyczaj przy stosowaniu testu Fishera przy użyciu SAS otrzymuję wyniki ze wszystkich tych testów i zwykle dają one prawie takie same wyniki. Ale test Fishera zawsze zależy od dokładnych wartości krańcowych.

Jeśli chodzi o regresję Poissona, jest to model, który łączy zmienne kategorialne z sumami komórkowymi. Jak każdy model, zależy to od zestawu założeń. Najważniejsze jest to, że liczba komórek jest zgodna z rozkładem Poissona, co oznacza, że ​​średnia liczba zliczeń jest równa jej wariancji. Zasadniczo nie dotyczy to rozkładów liczby komórek. W przypadku nadmiernej dyspersji (wariancja większa niż średnia) bardziej odpowiedni może być model dwumianowy ujemny.

Michael R. Chernick
źródło
„Test Fishera-Irwina to tylko inna nazwa testu Fishera” ... aha, dzięki temu ten komentarz jest dla mnie mniej mylący, dzięki!
JVMcDonnell
3
Twoja odpowiedź tak naprawdę nie zmniejszyła mojego zamieszania co do tego, kiedy robić te rzeczy. Myślę, że jedną z rzeczy, o których chciałem usłyszeć, jest to, w jakim stopniu problemy z chi ^ 2 można rozwiązać za pomocą symulacji Monte Carlo lub poprawek itp .; lub stopień, w jakim może być zastąpiony przez glms. Więc zostawię to na chwilę otwarte, aby zobaczyć, czy mogę uzyskać więcej brań. Ale jeśli nikt nie waży po chwili, zaakceptuję twoją odpowiedź.
JVMcDonnell
W przypadku Fishera i Chi-kwadrat, powiedziałem ci, kiedy możesz użyć chi-kwadrat. Jeśli zaakceptujesz pomysł Fishera, że ​​zawsze powinieneś uwzględniać wartości krańcowe, test Fishera zawsze ma zastosowanie. Ale jeśli tego nie zaakceptujesz, myślę, że musiałbyś wybrać bezwarunkowy test. Jeśli chodzi o inną dostępną baterię testów, nie wiem nic o ich właściwościach, a zatem nie mogę naprawdę doradzić, kiedy ich użyć. Doświadczenie z formy Widziałem przypadki, w których to miało znaczenie, ponieważ wynik jest zwykle w ścisłej zgodności.
Michael R. Chernick
Czy to naprawdę prawda, że ​​Fisher pomyślał, że „zawsze należy warować na marginalnych sumach”? To założenie jest ważne tylko wtedy, gdy wartości krańcowe są stałe. W przykładzie herbaty smakującej pani wie, że 5 to mleko, a 5 mleko. Ale w eksperymentach jest bardziej powszechne, że nie ma siły wymuszającej marginesy. Rozważ przypadek rzucenia dwiema monetami 10 razy każda. Kiedy 5 głów toczy się wokół monety, nie zaczynają dawać ogonów, aby zachować marginesy. W takich przypadkach udokumentowano, że Fisher jest bardzo konserwatywny. Dlatego interesują mnie alternatywy.
JVMcDonnell
Tak. Rozumiem, że Fisher wierzył w wybór rozkładów refrenów, które wykorzystują informacje z danych. Pomyślałby więc, że bez względu na to, jak powstały sumy mariginalne, zaobserwowane dane należy porównać jedynie z danymi, które miałyby miejsce przy hipotezie zerowej, która wynikała z ograniczeń danych, mianowicie podanych sum brzeżnych. Podobnie jak w przypadku innych pomysłów Fishera było to kontrowersyjne.
Michael R. Chernick