Grupa osób odpowiada na jedno pytanie. Odpowiedź może brzmieć „tak” lub „nie”. Badacz chce wiedzieć, czy wiek jest związany z rodzajem odpowiedzi.
Powiązanie oceniono za pomocą regresji logistycznej, w której wiek jest zmienną objaśniającą, a typ odpowiedzi (tak, nie) jest zmienną zależną. Rozwiązano to osobno, obliczając średni wiek grup, które odpowiedziały odpowiednio „tak” i „nie” oraz przeprowadzając test T w celu porównania średnich.
Oba testy przeprowadzono zgodnie z zaleceniami różnych osób i żadna z nich nie jest pewna, która droga jest właściwa. Z uwagi na pytanie badawcze, który test byłby lepszy?
W testowaniu hipotez wartości p nie były istotne (regresja) i istotne (test T). Próbka zawiera mniej niż 20 przypadków.
regression
logistic
t-test
Gwen
źródło
źródło
Odpowiedzi:
Oba testy domyślnie modelują zależność wiek-reakcja, ale robią to na różne sposoby. Wybór zależy od tego, w jaki sposób modelujesz tę relację. Twój wybór powinien zależeć od podstawowej teorii, jeśli istnieje; na jaki rodzaj informacji chcesz wyciągnąć z wyników; i o tym, jak wybierana jest próbka. Ta odpowiedź omawia te trzy aspekty w kolejności.
Opiszę test t i regresję logistyczną przy użyciu języka, który zakłada, że studiujesz dobrze zdefiniowaną populację ludzi i chcesz wyciągnąć wnioski z próby dla tej populacji.
Aby wesprzeć jakiekolwiek wnioskowanie statystyczne, musimy założyć, że próba jest losowa.
Test t zakłada, że osoby w próbie, które odpowiedziały „nie”, są prostą losową próbą wszystkich nie-respondentów w populacji i że osoby w próbie, które odpowiedziały „tak”, są prostą losową próbą wszystkich tak-respondentów w populacja.
Test t zawiera dodatkowe założenia techniczne dotyczące rozkładów wieku w każdej z dwóch grup w populacji. Istnieją różne wersje testu t, aby poradzić sobie z prawdopodobnymi możliwościami.
Regresja logistyczna zakłada, że wszyscy ludzie w każdym wieku są prostą losową próbą osób w tym wieku w populacji. Oddzielne grupy wiekowe mogą wykazywać różne wskaźniki odpowiedzi „tak”. Wskaźniki te, wyrażone jako logarytmiczne szanse (a nie jako proste proporcje), zakłada się, że są liniowo powiązane z wiekiem (lub z pewnymi określonymi funkcjami wieku).
Regresję logistyczną można łatwo rozszerzyć, aby uwzględnić nieliniowe relacje między wiekiem a reakcją. Takie rozszerzenie można wykorzystać do oceny wiarygodności początkowego założenia liniowego. Jest to praktyczne w przypadku dużych zestawów danych, które zapewniają wystarczająco dużo szczegółów, aby wyświetlić nieliniowości, ale jest mało prawdopodobne, aby były przydatne w przypadku małych zestawów danych. Powszechna ogólna zasada - że modele regresji powinny mieć dziesięć razy więcej obserwacji niż parametrów - sugeruje, że do wykrycia nieliniowości potrzeba znacznie więcej niż 20 obserwacji (co wymaga trzeciego parametru oprócz punktu przecięcia i nachylenia funkcji liniowej ).
Test t wykrywa, czy przeciętny wiek różni się w populacji wśród osób, które nie udzieliły odpowiedzi „tak” i „tak”. Regresja logistyczna szacuje, jak odsetek odpowiedzi różni się w zależności od wieku. Jako taki jest bardziej elastyczny i może dostarczać bardziej szczegółowych informacji niż test t. Z drugiej strony okazuje się, że ma mniejszą moc niż test t do podstawowego celu wykrycia różnicy między średnim wiekiem w grupach.
Jest możliwe, aby para testów wykazała wszystkie cztery kombinacje istotności i nieistotności. Dwa z nich są problematyczne:
Test t nie jest znaczący, ale regresja logistyczna jest. Gdy założenia obu testów są wiarygodne, taki wynik jest praktycznie niemożliwy, ponieważ test t nie próbuje wykryć tak specyficznej zależności, jak zakłada regresja logistyczna. Jednak gdy związek ten jest wystarczająco nieliniowy, aby spowodować, że najstarsze i najmłodsze podmioty podzielają jedną opinię, a osoby w średnim wieku - inne, wówczas rozszerzenie regresji logistycznej na relacje nieliniowe może wykryć i kwantyfikować tę sytuację, której żaden test t nie mógłby wykryć .
Test t jest znaczący, ale regresja logistyczna nie jest, jak w pytaniu. Zdarza się to często, zwłaszcza gdy istnieje grupa młodszych respondentów, grupa starszych respondentów i kilka osób pomiędzy nimi. Może to stworzyć wielki rozdział między odsetkami odpowiedzi „nie” i „tak”. Jest on łatwo wykrywany przez test t. Jednak regresja logistyczna miałaby albo stosunkowo mało szczegółowych informacji o tym, jak odsetek odpowiedzi faktycznie zmienia się wraz z wiekiem, albo miałaby niejednoznaczne informacje: przypadek „całkowitego rozdzielenia”, w którym wszyscy starsi ludzie reagują w jeden sposób, a wszyscy młodsi w inny sposób - ale w takim przypadku oba testy miałyby zwykle bardzo niskie wartości p.
Należy pamiętać, że projekt eksperymentalny może unieważnić niektóre założenia testowe. Na przykład, jeśli wybrano osoby według ich wieku w układzie warstwowym, wówczas założenie testu t (że każda grupa odzwierciedla prostą losową grupę wiekową) staje się wątpliwe. Ten projekt sugerowałby poleganie na regresji logistycznej. Jeśli zamiast tego miałeś dwie pule, jedną bez odpowiedzi i jedną z odpowiedzi tak, i wybrałeś losowo spośród tych, aby ustalić ich wiek, wówczas założenia próby regresji logistycznej są wątpliwe, podczas gdy te z testu t utrzymają się. Ten projekt sugerowałby zastosowanie jakiejś formy testu t.
(Drugi projekt może wydawać się tutaj głupi, ale w okolicznościach, w których „wiek” jest zastępowany przez jakąś cechę, która jest trudna, kosztowna lub czasochłonna do zmierzenia, może być atrakcyjna).
źródło
W tym sensie dwa modele warunkowe są kompatybilne.
źródło
Lepszym testem jest ten, który lepiej odpowie na twoje pytanie. Żaden z nich nie jest po prostu lepszy na pierwszy rzut oka. Różnice tutaj są równoważne z tymi stwierdzonymi podczas regresji y na xi x na y, a przyczyny różnych wyników są podobne. Oceniana wariancja zależy od tego, która zmienna jest traktowana jako zmienna odpowiedzi w modelu.
Twoje pytanie badawcze jest bardzo niejasne. Być może, jeśli weźmiesz pod uwagę kierunek przyczynowości, będziesz w stanie dojść do wniosku, której analizy chcesz użyć. Czy wiek powoduje, że ludzie reagują „tak”, czy też „tak” powoduje, że ludzie się starzeją? Bardziej prawdopodobne jest to pierwsze, w którym to przypadku wariancja prawdopodobieństwa „tak” jest tym, co chcesz modelować, a zatem regresja logistyczna jest najlepszym wyborem.
To powiedziawszy, powinieneś zbadać założenia testów. Można je znaleźć online na wikipedii lub w swoich podręcznikach na ich temat. Może się zdarzyć, że masz dobre powody, aby nie przeprowadzać regresji logistycznej, a jeśli tak się stanie, możesz zadać inne pytanie.
źródło