Chcę stworzyć model logistyczny z moich danych ankietowych. To niewielka ankieta dotycząca czterech kolonii mieszkalnych, w której przeprowadzono wywiad tylko z 154 respondentami. Moja zmienna zależna to „zadowalające przejście do pracy”. Stwierdziłem, że spośród 154 respondentów 73 stwierdziło, że zadowalająco przeszły do pracy, a reszta nie. Zatem zmienna zależna ma charakter binarny i postanowiłem zastosować regresję logistyczną. Mam siedem zmiennych niezależnych (trzy ciągłe i cztery nominalne). Jedna z wytycznych sugeruje, że powinno być 10 przypadków dla każdej zmiennej predykcyjnej / niezależnej (Agresti, 2007). Na podstawie tych wytycznych uważam, że regresja logistyczna jest w porządku.
Czy mam rację? Jeśli nie, proszę dać mi znać, jak zdecydować o liczbie zmiennych niezależnych?
źródło
1
„s”) i 90 nie-przypadków (0
„s”), wówczas reguła mówi „uwzględnij tylko 1 predyktor”. Ale co jeśli wymodeluję te0
zamiast tych1
, a następnie wezmę odwrotność oszacowanych ilorazów szans? Czy mogę dołączyć 9 predyktorów? To nie ma dla mnie sensu.Odpowiedzi:
Jest tu kilka problemów.
Zazwyczaj chcemy ustalić minimalną wielkość próby, aby osiągnąć minimalnie akceptowalny poziom mocy statystycznej . Wymagana wielkość próby jest funkcją kilku czynników, przede wszystkim wielkości efektu, który chcesz odróżnić od 0 (lub jakiejkolwiek wartości zerowej, której używasz, ale 0 jest najczęściej), a także minimalnego prawdopodobieństwa złapania tego efektu chcę mieć. W tej perspektywie wielkość próbki jest określana na podstawie analizy mocy.
Innym aspektem jest stabilność twojego modelu (jak zauważa @cbeleites). Zasadniczo, ponieważ stosunek szacowanych parametrów do liczby danych zbliża się do 1, Twój model zostanie nasycony i koniecznie będzie nadmierny (chyba że w systemie nie ma przypadkowości). Z tej perspektywy wynika praktyczna zasada stosunku 1 do 10. Pamiętaj, że posiadanie odpowiedniej mocy na ogół zaspokoi tę troskę, ale nie odwrotnie.
Jednak reguła 1 do 10 pochodzi ze świata regresji liniowej i ważne jest, aby pamiętać, że regresja logistyczna ma dodatkowe złożoności. Jednym z problemów jest to, że regresja logistyczna działa najlepiej, gdy procent 1 i 0 wynosi około 50% / 50% (jak omawiają @andrea i @psj w powyższych komentarzach). Inną kwestią, którą należy się zająć, jest separacja . Oznacza to, że nie chcesz, aby wszystkie twoje 1 były zbierane na jednym skrajniku niezależnej zmiennej (lub pewnej ich kombinacji), a wszystkie zera na drugim biegunie. Chociaż wydaje się, że jest to dobra sytuacja, ponieważ ułatwiłoby to idealne przewidywanie, w rzeczywistości wysadza proces szacowania parametrów. (@Scortchi doskonale omawia tutaj sposób radzenia sobie z separacją w regresji logistycznej:Jak radzić sobie z idealną separacją w regresji logistycznej? ) Przy większej liczbie IV, staje się to bardziej prawdopodobne, nawet jeśli prawdziwe wielkości efektów są utrzymywane na stałym poziomie, a zwłaszcza, jeśli twoje odpowiedzi są niezrównoważone. Tak więc możesz łatwo potrzebować więcej niż 10 danych na IV.
Ostatnim problemem związanym z tą zasadą jest to, że zakłada ona, że twoje IV są ortogonalne . Jest to uzasadnione w przypadku zaprojektowanych eksperymentów, ale przy takich badaniach obserwacyjnych, jak twoje, twoje IV prawie nigdy nie będą w przybliżeniu ortogonalne. Istnieją strategie radzenia sobie z tą sytuacją (np. Łączenie lub upuszczanie kroplówki, najpierw przeprowadzanie analizy głównych składników itp.), Ale jeśli nie zostanie to rozwiązane (co jest powszechne), będziesz potrzebować więcej danych.
Rozsądnym pytaniem jest zatem, jakie powinno być twoje minimalne N i / lub czy Twoja próbka jest wystarczająca? Aby rozwiązać ten problem, sugeruję skorzystanie z metod omawianych przez @cbeleites; poleganie na zasadzie od 1 do 10 będzie niewystarczające.
źródło
Zazwyczaj używam reguły 15: 1 (stosunek min (zdarzenia, nie-zdarzenia) do liczby parametrów kandydujących w modelu). Nowsze prace wykazały, że do bardziej rygorystycznej walidacji potrzebna jest 20: 1. Więcej informacji można znaleźć w materiałach z mojego kursu, które można znaleźć na stronie http://biostat.mc.vanderbilt.edu/rms , w szczególności argument za minimalną wielkością próby 96, aby oszacować przecięcie. Ale wymóg dotyczący wielkości próby jest bardziej szczegółowy, a nawet nowszy artykuł zajmuje się tym bardziej kompleksowo.
źródło
Zwykle zbyt mało przypadków wrt. złożoność modelu (liczba parametrów) oznacza, że modele są niestabilne . Jeśli więc chcesz wiedzieć, czy próbka jest złożona pod względem wielkości / modelu, sprawdź, czy uzyskasz dość stabilny model.
Istnieją (przynajmniej) dwa różne rodzaje niestabilności:
Te parametry modelu znacznie różnić tylko z niewielkimi zmianami w danych treningowych.
Te przewidywania (dla tej samej sprawie) modeli przeszkolonych z niewielkimi zmianami w danych uczących się znacznie różnić.
Możesz zmierzyć 1., sprawdzając, jak bardzo różnią się twoje współczynniki modelu, jeśli dane treningowe są lekko zaburzone. Odpowiednią grupę modeli można obliczyć np. Podczas ładowania początkowego lub (iterowanych) procedur weryfikacji krzyżowej.
W przypadku niektórych typów modeli lub problemów różne parametry nie oznaczają różnych prognoz. Możesz bezpośrednio sprawdzić niestabilność 2. patrząc na zmienność prognoz dla tego samego przypadku (niezależnie od tego, czy są one poprawne, czy nie) obliczonych podczas sprawdzania poprawności po rozruchu lub iteracji krzyżowej.
źródło
Nie ma ścisłych reguł, ale można uwzględnić wszystkie zmienne niezależne, o ile zmienne nominalne nie mają zbyt wielu kategorii. Potrzebujesz jednej „beta” dla wszystkich oprócz jednej klasy dla każdej zmiennej nominalnej. Więc jeśli zmienną nominalną powiedziano „obszar pracy” i masz 30 obszarów, to potrzebujesz 29 bet.
Jednym ze sposobów przezwyciężenia tego problemu jest uregulowanie beta - lub ukaranie za duże współczynniki. Pomaga to upewnić się, że model nie przewyższa danych. Normalizacja L2 i L1 są popularnymi wyborami.
Inną kwestią do rozważenia jest to, jak reprezentatywna jest twoja próbka. Z jakiej populacji chcesz wnioskować? czy masz w próbie wszystkie różne typy osób, które są w populacji? trudno będzie dokonać dokładnego wnioskowania, jeśli próbka ma „dziury” (np. brak kobiet w wieku 35–50 lat lub brak pracowników o wysokich dochodach itp.)
źródło
Oto aktualna odpowiedź z witryny MedCalc, o której pisał użytkownik user41466
http://www.medcalc.org/manual/logistic_regression.php
Uwagi dotyczące wielkości próbki
Obliczanie wielkości próby dla regresji logistycznej jest złożonym problemem, ale na podstawie pracy Peduzzi i in. (1996) można zasugerować następujące wytyczne dotyczące minimalnej liczby przypadków, które należy uwzględnić w badaniu. Niech p będzie najmniejszym odsetkiem przypadków ujemnych lub dodatnich w populacji, a k liczbą zmiennych towarzyszących (liczbą zmiennych niezależnych), wówczas minimalna liczba przypadków do uwzględnienia to: N = 10 k / p Na przykład: ty mają 3 zmienne towarzyszące do uwzględnienia w modelu, a odsetek przypadków dodatnich w populacji wynosi 0,20 (20%). Minimalna wymagana liczba przypadków to N = 10 x 3 / 0,20 = 150 Jeśli uzyskana liczba jest mniejsza niż 100, należy ją zwiększyć do 100, jak sugeruje Long (1997).
Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) Badanie symulacyjne liczby zdarzeń na zmienną w analizie regresji logistycznej. Journal of Clinical Epidemiology 49: 1373-1379.
źródło
Wyniki z dowolnego modelu logistycznego z liczbą obserwacji na zmienną niezależną w zakresie od co najmniej pięciu do dziewięciu są wiarygodne, szczególnie jeśli wyniki są istotne statystycznie (Vittinghoff i McCulloch, 2007).
Vittinghoff, E. i McCulloch, CE 2007. Rozluźnienie reguły dziesięciu zdarzeń na zmienną w regresji logistycznej i Coxa. American Journal of Epidemiology, 165 (6): 710–718.
źródło