Jak radzić sobie z pytaniem ankietowym z wieloma odpowiedziami?

10

Mam zestaw danych, w którym pytam ludzi, czy byli w określonych miejscach (np. A, B, C, D), i mogą dokonać więcej niż jednego wyboru, następnie próbka jest pobierana z nosa, aby sprawdzić, czy są zarażeni niektórymi choroba.

Muszę dowiedzieć się o względnym ryzyku zarażenia osoby udającej się w określone miejsce. Mogę teraz myśleć tylko o regresji logistycznej, czy są jakieś inne sugestie?

Dzięki.

lokheart
źródło

Odpowiedzi:

2

Nadal możesz używać regresji logistycznej, ponieważ Twój wynik jest dychotomiczny, zainfekowany lub niezainfekowany. Po prostu przyjmuję podejście do zmiennej fikcyjnej i nie używam żadnej podróży jako kategorii odniesienia (tj. Dla każdego z twoich miejsc masz zmienną zakodowaną jako 1, jeśli odwiedzili to miejsce i zakodowaną jako 0, jeśli nie odwiedzili tego miejsca). Jako takie, jeśli przekształcisz swoje współczynniki beta w szanse (tj. Potęguje logarytmiczne szanse), interpretacja zmiennej fikcyjnej dla lokalizacji A byłaby ilorazem szans odwiedzin w lokalizacji A w porównaniu z brakiem odwiedzin w lokalizacji A kontrolujących inne odwiedzane miejsca. Należy również zauważyć, że w tym podejściu problem dotyczy wielu kolinearności (np. Jeśli wiele osób podróżujących do A podróżuje również do B, może to wpływać na każdy z ich współczynników).

Andy W.
źródło
5
Ten model zakłada, że ​​odpowiedź jest funkcją addytywną podróży do każdego miejsca, co jest bardzo mało prawdopodobne. Nadal można go uruchomić, dołączając warunki interakcji. Może być potrzebny pełny zestaw wszystkich możliwych interakcji (poza interakcjami dwustronnymi). (Byłoby to matematycznie identyczne z zapewnieniem osobnego manekina dla każdej możliwej kombinacji miejsc docelowych.)
whuber
4
Lepiej mieć dużo danych, jeśli używasz wszystkich interakcji (15 parametrów), a nie tylko głównych efektów (4 parametry) ...
Stephan Kolassa,
@whuber i @Stephen, dziękuję za odpowiedzi i zgadzam się całkowicie z każdym z was. Osobiście byłbym w porządku z podejściem zmiennym z efektami głównymi, gdyby wiele odpowiedzi nie było tak powszechnych, co może nie być możliwym do przyjęcia założeniem, biorąc pod uwagę obawy oryginalnych plakatów. Być może zaproponowałbym inne projekty, gdyby oryginalny plakat był zainteresowany ryzykiem podróży do A vs B (np. Pewnego rodzaju procedura dopasowania). Zgadzam się, że ryzyko addycyjne nie ma sensu, chyba że występuje pewne odchylenie selekcji.
Andy W