Jeśli poprawnie obliczyłem, regresja logistyczna asymptotycznie ma taką samą moc jak test t. Aby to zobaczyć, zanotuj jego logarytm prawdopodobieństwa i oblicz oczekiwanie jego Hesji na jego maksimum globalnym (jego wartość ujemna szacuje macierz wariancji-kowariancji rozwiązania ML). Nie przejmuj się zwykłą parametryzacją logistyczną: łatwiej jest sparametryzować ją za pomocą dwóch omawianych prawdopodobieństw. Szczegóły będą zależeć od tego, jak dokładnie przetestujesz znaczenie współczynnika regresji logistycznej (istnieje kilka metod).
To, że testy te mają podobne moce, nie powinno być zbyt zaskakujące, ponieważ teoria chi-kwadrat dla oszacowań ML opiera się na normalnym przybliżeniu do prawdopodobieństwa log, a test t opiera się na normalnym przybliżeniu do rozkładów proporcji. Sedno sprawy polega na tym, że obie metody dokonują takich samych oszacowań dwóch proporcji, a obie oceny mają te same błędy standardowe.
Rzeczywista analiza może być bardziej przekonująca. Przyjmijmy ogólną terminologię dla wartości w danej grupie (A lub B):
- p jest prawdopodobieństwem 1.
- n jest rozmiarem każdego zestawu losowań.
- m jest liczbą zestawów losowań.
- N.= m n to ilość danych.
- 0 1 j th i thkI j (równy lub ) to wartość wyniku w zestawie losowań .01jotthjath
- i thkja to całkowita liczba jedynek w zestawie losowań .jath
- k to całkowita liczba jedynek.
Regresja logistyczna jest zasadniczo estymatorem ML . Jego logarytm podajep
log( L ) = k log( p ) + ( N- k ) log( 1 - p ) .
Jego pochodnymi w odniesieniu do parametru sąp
∂log( L )∂p= kp- N−k1−p and
−∂2log(L)∂p2=kp2+N−k(1−p)2.
Ustawienie pierwszego na zero daje oszacowanie ML a podłączenie go do odwrotności drugiego wyrażenia daje wariancję , który jest kwadratem błędu standardowego. P (1 - t )/Np^=k/Np^(1−p^)/N
T statystyczne będą uzyskane z estymatorów na podstawie danych pogrupowanych w zestawach zwraca; mianowicie, jako różnica średnich (jeden z grupy A i drugi z grupy B) podzielona przez błąd standardowy tej różnicy, który jest uzyskiwany ze standardowych odchyleń średnich. Spójrzmy zatem na średnią i odchylenie standardowe dla danej grupy. Średnia równa jest , co jest identyczne z estymatorem ML . Odchylenie standardowe, o którym mowa, jest odchyleniem standardowym środków wyciągających; to jest odchylenie standardowe zbioru . Oto sedno sprawy, więc zbadajmy kilka możliwości.P K I / nk/Np^ki/n
Załóżmy, że dane nie są pogrupowane zwraca w ogóle, to znaczy i . są środki ciągnienia. Ich wariancja próbki wynosi razy . Z tego wynika, że błąd standardowy jest identyczny z błędem standardowym ML poza współczynnikiem , który wynosi zasadniczo gdy . Dlatego - oprócz tej niewielkiej różnicy - wszelkie testy oparte na regresji logistycznej będą takie same jak testy t i uzyskamy zasadniczo tę samą moc.m = N k I N / ( N - 1 ) P ( 1 - P ) √n=1m=NkiN/(N−1)p^(1−p^) 1N=1800N/(N−1)−−−−−−−−−√1N=1800
Kiedy dane są pogrupowane, (prawdziwa) wariancja jest równa ponieważ statystyki reprezentują sumę zmiennych Bernoulliego ( ), każda z wariancją . Zatem oczekiwany błąd standardowy średniej tych wartości jest pierwiastkiem kwadratowym z , tak jak poprzednio.p ( 1 - p ) / n k i n p p ( 1 - p ) m p ( 1 - p ) / n / m = p ( 1 - p ) / Nki/np(1−p)/nkinpp(1−p)mp ( 1 - p ) / n / m = p ( 1 - p ) / N
Nr 2 wskazuje, że moc testu nie powinny różnić się znacząco w sposób opiera rozdziela się (to znaczy, z jak i są zróżnicowane zastrzeżeniem ), z wyjątkiem być może z dość niewielki wpływ z regulacją w próbce wariancji (chyba że byłeś tak głupi, że używałeś bardzo niewielu zestawów remisów w każdej grupie).n m n = Nmnm n = N
Ograniczone symulacje do porównania do (przy 10000 iteracji na sztukę) z udziałem (zasadniczo regresja logistyczna); ; im (maksymalizacja korekty wariancji próbki) to potwierdzają: moc (przy , jednostronna) w pierwszych dwóch przypadkach wynosi 0,59, podczas gdy w trzecim, gdzie współczynnik korygujący stanowi zmiana materiału (są teraz tylko dwa stopnie swobody zamiast 1798 lub 58), spada do 0,36. Kolejny test porównujący dop = 0,74 m = 900 , n = 1 m = n = 30 m = 2 , n = 450 α = 0,05 p = 0,50 p = 0,52p = 0,70p = 0,74m = 900 , n = 1m = n = 30m = 2 , n = 450α = 0,05p = 0,50p = 0,52 daje moc odpowiednio 0,22, 0,21 i 0,15: ponownie obserwujemy tylko niewielki spadek z braku grupowania w losowania (= regresja logistyczna) do grupowania w 30 grupach i znaczny spadek do tylko dwóch grup.
Morały tej analizy są następujące:
- Nie tracisz dużo, dzieląc swoje danych na dużą liczbę stosunkowo małych grup „losowań”.mN.m
- Możesz stracić znaczną moc, używając małej liczby grup ( jest małe, - ilość danych na grupę - jest duża).nmn
- Najlepiej, jeśli w ogóle nie grupujesz swoich danych w „losowania”. Po prostu przeanalizuj je w obecnej postaci (za pomocą dowolnego rozsądnego testu, w tym regresji logistycznej i testów t).N.
Oto kod w R, który przedstawia symulację whuber za odpowiedź . Informacje zwrotne na temat poprawy mojego kodu R są mile widziane.
źródło
replicate()
rbinom()
{*}apply()