To dobre pytanie, ale duże. Nie sądzę, żebym mógł udzielić pełnej odpowiedzi, ale wyrzucę trochę jedzenia do namysłu.
Po pierwsze, pod twoim najwyższym punktem, poprawka, o której mówisz, jest znana jako korekta ciągłości Yatesa . Problem polega na tym, że obliczamy dyskretną statystykę wnioskowania:
(Jest dyskretny, ponieważ przy skończonej liczbie wystąpień przedstawionych w tabeli awaryjnej istnieje skończona liczba możliwych zrealizowanych wartości, które może przyjąć ta statystyka). Niezależnie od tego faktu, porównuje się go zciągłymrozkładem odniesienia (mianowicie,rozkładχ2ze stopniami swobody(r-1)(c-1)). To z konieczności prowadzi do niedopasowania na pewnym poziomie. Przy szczególnie małym zestawie danych i jeśli niektóre komórki mają oczekiwane wartości mniejsze niż 5, możliwe jest, że wartość p może być zbyt mała. Korekta Yatesa dostosowuje się do tego.
χ2=∑(O−E)2E
χ2 ( r - 1 ) ( c -1)
Jak na ironię ten sam podstawowy problem (niedopasowanie dyskretne-ciągłe) może prowadzić do zbyt wysokich wartości p . W szczególności wartość p jest tradycyjnie definiowana jako prawdopodobieństwo otrzymania danych, które są tak ekstremalne lub większeniż zaobserwowane dane. Przy ciągłych danych rozumie się, że prawdopodobieństwo uzyskania jakiejkolwiek dokładnej wartości jest znikomo małe, a zatem naprawdę mamy prawdopodobieństwo, że dane są bardziej ekstremalne. Jednak w przypadku danych dyskretnych istnieje skończone prawdopodobieństwo uzyskania danych takich jak twoje. Tylko obliczenie prawdopodobieństwa uzyskania bardziej ekstremalnych danych niż twoje daje nominalne wartości p, które są zbyt niskie (co prowadzi do zwiększenia błędów typu I), ale uwzględnienie prawdopodobieństwa otrzymania danych takich samych jak twoje prowadzi do nominalnych wartości p, które są zbyt wysokie (co doprowadziłoby do zwiększenia błędów typu II). Fakty te podpowiadają ideę średniej wartości p . Zgodnie z tym podejściem wartość p oznacza prawdopodobieństwo danych bardziej ekstremalnych niż twoje plus połowa prawdopodobieństwo danych jest takie samo jak twoje.
Jak wskazano, istnieje wiele możliwości testowania danych tabeli awaryjnej. Najbardziej kompleksowe podejście do zalet i wad różnych podejść znajduje się tutaj . Ten papier jest specyficzny dla tabel 2x2, ale nadal możesz wiele się dowiedzieć o opcjach danych tabeli awaryjnej, czytając go.
Myślę też, że warto poważnie rozważyć modele. Starsze testy, takie jak chi-kwadrat, są szybkie, łatwe i zrozumiałe dla wielu osób, ale nie pozostawiają tak kompleksowego zrozumienia danych, jakie można uzyskać po zbudowaniu odpowiedniego modelu. Jeśli uzasadnione jest myślenie o wierszach [kolumnach] tabeli nieprzewidzianych zdarzeń jako zmiennej odpowiedzi, a kolumnach [wierszach] o zmiennych objaśniających / predyktorów, podejście do modelowania jest dość łatwe. Na przykład, jeśli masz tylko dwa wiersze, możesz zbudować model regresji logistycznej ; jeśli jest kilka kolumn, możesz użyć kodowania komórki referencyjnej (kodowanie pozorowane), aby zbudować model typu ANOVA. Z drugiej strony, jeśli masz więcej niż dwa wiersze, wielomianowa regresja logistycznamoże być używany w ten sam sposób. Jeśli wiersze mają wewnętrzny porządek, porządkowa regresja logistyczna zapewni lepszą wydajność niż wielomian. Moim zdaniem model logarytmiczno-liniowy (regresja Poissona) jest prawdopodobnie mniej istotny, chyba że masz tabele zdarzeń z więcej niż dwoma wymiarami.
Aby uzyskać kompleksowe omówienie takich tematów, najlepsze źródła to książki Agresti: albo jego pełne omówienie (bardziej rygorystyczne), jego wstępna książka (łatwiejsza, ale wciąż obszerna i bardzo dobra), albo być może także jego książka porządkowa .
sol2)-test
sol2)= ∑ O ⋅ ln ( Omi)
Spróbuję odpowiedzieć na niektóre z twoich pytań najlepiej jak potrafię z mojej perspektywy. Po pierwsze, test Fishera-Irwina to tylko inna nazwa testu Fishera. Poza tym, że czasami jest on intensywny obliczeniowo, zazwyczaj wolę stosować test Fishera. Jeśli występuje jakikolwiek problem z tym testem, warunkuje on krańcowe sumy. Piękno testu polega na tym, że zgodnie z hipotezą zerową zbiór tabel kontyngencji o takich samych wartościach krańcowych jak tabela obserwowana ma rozkład hipergeometryczny. Niektórzy twierdzą, że nie widzą uzasadnienia dla ograniczenia rozważania do tabel o takich samych wartościach krańcowych.
Test chi-kwadrat Pearsona jest bardzo często używany do testowania asocjacji w tabelach nieprzewidzianych zdarzeń. Podobnie jak wiele innych testów, jest przybliżony, więc poziom istotności nie zawsze jest dokładny. Cochran wykazał, że w małych próbkach, gdy niektóre komórki są bardzo rzadkie (np. Zawierające mniej niż 5 przypadków w niektórych komórkach), przybliżenie będzie słabe.
Istnieje wiele innych przybliżonych testów. Zazwyczaj przy stosowaniu testu Fishera przy użyciu SAS otrzymuję wyniki ze wszystkich tych testów i zwykle dają one prawie takie same wyniki. Ale test Fishera zawsze zależy od dokładnych wartości krańcowych.
Jeśli chodzi o regresję Poissona, jest to model, który łączy zmienne kategorialne z sumami komórkowymi. Jak każdy model, zależy to od zestawu założeń. Najważniejsze jest to, że liczba komórek jest zgodna z rozkładem Poissona, co oznacza, że średnia liczba zliczeń jest równa jej wariancji. Zasadniczo nie dotyczy to rozkładów liczby komórek. W przypadku nadmiernej dyspersji (wariancja większa niż średnia) bardziej odpowiedni może być model dwumianowy ujemny.
źródło