Regresja logistyczna czy test T?

17

Grupa osób odpowiada na jedno pytanie. Odpowiedź może brzmieć „tak” lub „nie”. Badacz chce wiedzieć, czy wiek jest związany z rodzajem odpowiedzi.

Powiązanie oceniono za pomocą regresji logistycznej, w której wiek jest zmienną objaśniającą, a typ odpowiedzi (tak, nie) jest zmienną zależną. Rozwiązano to osobno, obliczając średni wiek grup, które odpowiedziały odpowiednio „tak” i „nie” oraz przeprowadzając test T w celu porównania średnich.

Oba testy przeprowadzono zgodnie z zaleceniami różnych osób i żadna z nich nie jest pewna, która droga jest właściwa. Z uwagi na pytanie badawcze, który test byłby lepszy?

W testowaniu hipotez wartości p nie były istotne (regresja) i istotne (test T). Próbka zawiera mniej niż 20 przypadków.

Gwen
źródło
2
Nie jestem pewien, czy to twoje prawdziwe pytanie. Przeprowadziłeś już obie analizy, o które pytasz. Zgaduję, że to, co naprawdę chcesz wiedzieć, to coś na temat porównań lub relacji między tymi testami, na przykład, co jest lepsze. Edytuj swoje pytanie, aby to naprawić.
John
Oba testy przeprowadzono zgodnie z zaleceniami różnych osób i żadna z nich nie jest pewna, czy jest to właściwa droga. Z uwagi na pytania badawcze (czy wiek jest związany z rodzajem odpowiedzi?), Który byłby lepszym testem, regresją logistyczną typu odpowiedzi na wiek lub testem T porównującym średni wiek osób, które odpowiedziały „tak” ze średnią wiek osób, które odpowiedziały „nie”?
Gwen,

Odpowiedzi:

19

Oba testy domyślnie modelują zależność wiek-reakcja, ale robią to na różne sposoby. Wybór zależy od tego, w jaki sposób modelujesz tę relację. Twój wybór powinien zależeć od podstawowej teorii, jeśli istnieje; na jaki rodzaj informacji chcesz wyciągnąć z wyników; i o tym, jak wybierana jest próbka. Ta odpowiedź omawia te trzy aspekty w kolejności.


Opiszę test t i regresję logistyczną przy użyciu języka, który zakłada, że ​​studiujesz dobrze zdefiniowaną populację ludzi i chcesz wyciągnąć wnioski z próby dla tej populacji.

Aby wesprzeć jakiekolwiek wnioskowanie statystyczne, musimy założyć, że próba jest losowa.

  • Test t zakłada, że ​​osoby w próbie, które odpowiedziały „nie”, są prostą losową próbą wszystkich nie-respondentów w populacji i że osoby w próbie, które odpowiedziały „tak”, są prostą losową próbą wszystkich tak-respondentów w populacja.

    Test t zawiera dodatkowe założenia techniczne dotyczące rozkładów wieku w każdej z dwóch grup w populacji. Istnieją różne wersje testu t, aby poradzić sobie z prawdopodobnymi możliwościami.

  • Regresja logistyczna zakłada, że ​​wszyscy ludzie w każdym wieku są prostą losową próbą osób w tym wieku w populacji. Oddzielne grupy wiekowe mogą wykazywać różne wskaźniki odpowiedzi „tak”. Wskaźniki te, wyrażone jako logarytmiczne szanse (a nie jako proste proporcje), zakłada się, że są liniowo powiązane z wiekiem (lub z pewnymi określonymi funkcjami wieku).

    Regresję logistyczną można łatwo rozszerzyć, aby uwzględnić nieliniowe relacje między wiekiem a reakcją. Takie rozszerzenie można wykorzystać do oceny wiarygodności początkowego założenia liniowego. Jest to praktyczne w przypadku dużych zestawów danych, które zapewniają wystarczająco dużo szczegółów, aby wyświetlić nieliniowości, ale jest mało prawdopodobne, aby były przydatne w przypadku małych zestawów danych. Powszechna ogólna zasada - że modele regresji powinny mieć dziesięć razy więcej obserwacji niż parametrów - sugeruje, że do wykrycia nieliniowości potrzeba znacznie więcej niż 20 obserwacji (co wymaga trzeciego parametru oprócz punktu przecięcia i nachylenia funkcji liniowej ).

Test t wykrywa, czy przeciętny wiek różni się w populacji wśród osób, które nie udzieliły odpowiedzi „tak” i „tak”. Regresja logistyczna szacuje, jak odsetek odpowiedzi różni się w zależności od wieku. Jako taki jest bardziej elastyczny i może dostarczać bardziej szczegółowych informacji niż test t. Z drugiej strony okazuje się, że ma mniejszą moc niż test t do podstawowego celu wykrycia różnicy między średnim wiekiem w grupach.

Jest możliwe, aby para testów wykazała wszystkie cztery kombinacje istotności i nieistotności. Dwa z nich są problematyczne:

  • Test t nie jest znaczący, ale regresja logistyczna jest. Gdy założenia obu testów są wiarygodne, taki wynik jest praktycznie niemożliwy, ponieważ test t nie próbuje wykryć tak specyficznej zależności, jak zakłada regresja logistyczna. Jednak gdy związek ten jest wystarczająco nieliniowy, aby spowodować, że najstarsze i najmłodsze podmioty podzielają jedną opinię, a osoby w średnim wieku - inne, wówczas rozszerzenie regresji logistycznej na relacje nieliniowe może wykryć i kwantyfikować tę sytuację, której żaden test t nie mógłby wykryć .

  • Test t jest znaczący, ale regresja logistyczna nie jest, jak w pytaniu. Zdarza się to często, zwłaszcza gdy istnieje grupa młodszych respondentów, grupa starszych respondentów i kilka osób pomiędzy nimi. Może to stworzyć wielki rozdział między odsetkami odpowiedzi „nie” i „tak”. Jest on łatwo wykrywany przez test t. Jednak regresja logistyczna miałaby albo stosunkowo mało szczegółowych informacji o tym, jak odsetek odpowiedzi faktycznie zmienia się wraz z wiekiem, albo miałaby niejednoznaczne informacje: przypadek „całkowitego rozdzielenia”, w którym wszyscy starsi ludzie reagują w jeden sposób, a wszyscy młodsi w inny sposób - ale w takim przypadku oba testy miałyby zwykle bardzo niskie wartości p.

Należy pamiętać, że projekt eksperymentalny może unieważnić niektóre założenia testowe. Na przykład, jeśli wybrano osoby według ich wieku w układzie warstwowym, wówczas założenie testu t (że każda grupa odzwierciedla prostą losową grupę wiekową) staje się wątpliwe. Ten projekt sugerowałby poleganie na regresji logistycznej. Jeśli zamiast tego miałeś dwie pule, jedną bez odpowiedzi i jedną z odpowiedzi tak, i wybrałeś losowo spośród tych, aby ustalić ich wiek, wówczas założenia próby regresji logistycznej są wątpliwe, podczas gdy te z testu t utrzymają się. Ten projekt sugerowałby zastosowanie jakiejś formy testu t.

(Drugi projekt może wydawać się tutaj głupi, ale w okolicznościach, w których „wiek” jest zastępowany przez jakąś cechę, która jest trudna, kosztowna lub czasochłonna do zmierzenia, może być atrakcyjna).

Whuber
źródło
Czy większość problemów związanych z nieliniowością i separacją nie zostanie złagodzona za pomocą splajnu na zmiennej wieku? W tej kwestii przepraszam, ale nie rozumiem, dlaczego projekt „zbiorczej” unieważniłby wyniki regresji logistycznej. Jasne, założenie losowej próbki zniknęło, ale czy zależy nam na tym, że dokonujemy wyboru tego projektu? Nawiązujesz do stronniczości wyboru? (Projekt, który
opisujesz,
@ usεr11852 Dziękujemy za przemyślane komentarze. Przepisałem kilka fragmentów, aby wyjaśnić poruszone kwestie. Chociaż wydłużenie wieku może poradzić sobie z nieliniowością w regresji logistycznej, może zwiększyć możliwość całkowitego rozdzielenia. Nie jestem pewien, co masz na myśli przez „projektowanie pulowe”, ale byłbym podejrzliwy wobec wysiłków interpretacji wartości p regresji logistycznej, w których nie można uzasadnić modelu prawdopodobieństwa (co umożliwia nam losowe próbkowanie).
whuber
Dziękuję za te Tak, w pełni doceniam twoją uwagę na temat całkowitej separacji (efekty Haucka-Donnera), nie brałem ich pod uwagę. OK, rozumiem teraz, co masz na myśli, mówiąc o dwóch pulach. W takim przypadku mielibyśmy uzgodnioną koncepcję badania obserwacyjnego (obserwujemy / definiujemy dwie pule), więc powinniśmy
bezkarnie
5

tXY

X|Y=iN(μi,σ2).
Ybernoulli(p)YX=x
P(Y=1|X=x)=fX|Y=1(x)P(Y=1)i=01fX|Y=i(x)P(Y=i)=pe12σ2(xμ1)2pe12σ2(xμ1)2+(1p)e12σ2(xμ0)2=11+1ppe12σ2(xμ0)2+12σ2(xμ1)2=logit1(β0+β1x)
β0=lnp1p12σ2(μ12μ02)β1=1σ2(μ1μ0).

W tym sensie dwa modele warunkowe są kompatybilne.

Jarle Tufto
źródło
3

Lepszym testem jest ten, który lepiej odpowie na twoje pytanie. Żaden z nich nie jest po prostu lepszy na pierwszy rzut oka. Różnice tutaj są równoważne z tymi stwierdzonymi podczas regresji y na xi x na y, a przyczyny różnych wyników są podobne. Oceniana wariancja zależy od tego, która zmienna jest traktowana jako zmienna odpowiedzi w modelu.

Twoje pytanie badawcze jest bardzo niejasne. Być może, jeśli weźmiesz pod uwagę kierunek przyczynowości, będziesz w stanie dojść do wniosku, której analizy chcesz użyć. Czy wiek powoduje, że ludzie reagują „tak”, czy też „tak” powoduje, że ludzie się starzeją? Bardziej prawdopodobne jest to pierwsze, w którym to przypadku wariancja prawdopodobieństwa „tak” jest tym, co chcesz modelować, a zatem regresja logistyczna jest najlepszym wyborem.

To powiedziawszy, powinieneś zbadać założenia testów. Można je znaleźć online na wikipedii lub w swoich podręcznikach na ich temat. Może się zdarzyć, że masz dobre powody, aby nie przeprowadzać regresji logistycznej, a jeśli tak się stanie, możesz zadać inne pytanie.

Jan
źródło
1
Czy masz na myśli „nie przeprowadzanie regresji logistycznej”?
mark999