Dokładny test Fishera z wagami?

12

Czy ktoś zna odmianę dokładnego testu Fishera, który uwzględnia wagi? Na przykład wagi próbkowania .
Dlatego zamiast zwykłej tabeli krzyżowej 2x2 każdy punkt danych ma wartość „masa” lub „rozmiar” ważącą punkt.

Przykładowe dane:

A B weight
N N 1
N N 3
Y N 1
Y N 2
N Y 6
N Y 7
Y Y 1
Y Y 2
Y Y 3
Y Y 4

Dokładny test Fishera używa następnie tabeli krzyżowej 2x2:

A\B  N  Y All
 N   2  2   4
 Y   2  4   6
All  4  6  10

Gdybyśmy wzięli wagę za „rzeczywistą” liczbę punktów danych, spowodowałoby to:

A\B  N  Y All
 N   4 13  17
 Y   3 10  13
All  7 23  30

Ale to spowodowałoby zbyt duże zaufanie. Zmiana jednego punktu danych z N / Y na N / N spowodowałaby bardzo dużą różnicę w statystykach.
Ponadto nie działałoby, jeśli jakakolwiek masa zawierała frakcje.

Michel de Ruiter
źródło

Odpowiedzi:

10

Podejrzewam, że „dokładne” testy i masy próbkowania są zasadniczo pojęciami niezgodnymi. Sprawdziłem w Stata, która ma dobre możliwości do badań próbek i rozsądne do dokładnych testów, a jej 8 możliwych statystyk testowych dla tabeli przestawnej z wagami próbek nie obejmuje żadnych „dokładnych” testów, takich jak Fisher.

Odpowiedni ręczny wpis Stata (dla svy: tabulate twoway ) zaleca stosowanie domyślnego testu we wszystkich przypadkach. Ta domyślna metoda oparta jest na zwykłej statystyce chi-kwadrat Pearsona. Cytować:

„Aby uwzględnić projekt ankiety, statystyka jest przekształcana w statystykę F o niecałkowitych stopniach swobody za pomocą korekcji Rao i Scotta drugiego rzędu” (1981, 1984).

Refs:

  • Rao, JNK i AJ Scott. 1981. Analiza danych kategorycznych ze złożonych badań ankietowych: testy chi-kwadrat pod kątem dopasowania i niezależności w tabelach dwustronnych. Journal of American Statistics Association 76: 221–230.
  • Rao, JNK i AJ Scott. 1984. W testach chi-kwadrat dla wielowarstwowych tabel kontyngencji z proporcjami komórek oszacowanymi na podstawie danych ankietowych. Annals of Statistics 12: 46–60.
jeden przystanek
źródło
3

Interesujące pytanie. Co rozumiesz przez wagę?

Byłbym skłonny zrobić bootstrap ... wybrać swoją ulubioną statystykę (tj. Dokładny Fisher) i obliczyć ją na twoich danych. Następnie przypisz nowe komórki do każdej instancji zgodnie z hipotezą zerową i powtórz proces 999 razy. Powinno to dać całkiem niezły rozkład empiryczny dla statystyki testu pod hipotezą zerową i umożliwić łatwe obliczenie wartości p!

użytkownik549
źródło
Dzięki! Miałem jednak nadzieję, że statystyki będą szybsze i bardziej stabilne do obliczenia ...
Michel de Ruiter
2

Jedną szybką rzeczą dotyczącą wag próbek - są zwykle sposobem na włączenie niektórych informacji o populacji, z której pobiera się próbki - ale zwykle opierają się one na scenariuszach typu „duża próbka” (zwykle w ukryciu ogranicza przewidywanie BLUP lub NIEBIESKI). Więc wyobrażam sobie, że odważniki próbki prawdopodobnie nie będą lepsze niż odważniki. Myślę, że lepsze byłoby wykorzystanie informacji o populacji, na której bezpośrednio oparto projekt próby.

Na przykład, na jakiej podstawie obliczono prawdopodobieństwa wyboru? Założę się, że znasz całkowitą populację lub jakiś podział populacji, który nie obejmuje A lub B (powiedzmy wiek według grup płci). Jeśli to nie jest poprawne, mam zamiar zmarnować trochę miejsca, ale jeśli jest to poprawne, i przypuśćmy, że masz sumy populacji dla grup (lub warstw) i w obrębie każdej grupy miałeś tabelę awaryjną „mini” 2 na 2. Możemy więc teraz napisać jako „cel” naszego wnioskowania. A może jest to suma która jest celem wnioskowania (ilu w populacji daje odpowiedź N / N ??). Próbujesz następnie uzasadnićR1,,RkkR1;11,R1;12,R1;21,R1;22,l=1kRl;ijRl;ijz próbkowanych liczb zastrzeżeniem ograniczenia, że dla . (maksymalny ktoś?)rl;iji,jRl;ij=Rl(l=1,,k)

Zauważ, że jeśli prawdopodobieństwa próbkowania były oparte tylko na tym, jakie dane prawdopodobnie uzyskasz, to nie mają one znaczenia (i stosuje się dokładny test Fishera), ponieważ po otrzymaniu danych wiesz, jaką próbkę otrzymałeś. Zatem spójną rzeczą do zrobienia jest zaktualizowanie prawdopodobieństwa próbkowania do jeśli jednostka mth znajduje się w próbce, a jeśli nie było ich w próbce. Jednak zwykle projekt opiera się na większej ilości informacji niż tylko na danych, które można zaobserwować. ale zauważ, że ważna jest informacja, a nie sama ankieta. Wnioskowanie oparte na projekcie jest po prostu dość skutecznym sposobem na włączenie wszystkich tych informacji do analizy.P(Dm)=1P(Dm)=0

prawdopodobieństwo prawdopodobieństwa
źródło