Wielkość próby regresji logistycznej?

26

Chcę stworzyć model logistyczny z moich danych ankietowych. To niewielka ankieta dotycząca czterech kolonii mieszkalnych, w której przeprowadzono wywiad tylko z 154 respondentami. Moja zmienna zależna to „zadowalające przejście do pracy”. Stwierdziłem, że spośród 154 respondentów 73 stwierdziło, że zadowalająco przeszły do ​​pracy, a reszta nie. Zatem zmienna zależna ma charakter binarny i postanowiłem zastosować regresję logistyczną. Mam siedem zmiennych niezależnych (trzy ciągłe i cztery nominalne). Jedna z wytycznych sugeruje, że powinno być 10 przypadków dla każdej zmiennej predykcyjnej / niezależnej (Agresti, 2007). Na podstawie tych wytycznych uważam, że regresja logistyczna jest w porządku.

Czy mam rację? Jeśli nie, proszę dać mi znać, jak zdecydować o liczbie zmiennych niezależnych?

Braj-Stat
źródło
3
Nigdy tak naprawdę nie zrozumiałem ogólnej zasady, która mówi „10 przypadków dla każdego predyktora” (i niestety nie mam dostępu do książki napisanej przez Agresti). Chodzi mi o to: jeśli mam 100 podmiotów, z czego 10 to przypadki ( 1„s”) i 90 nie-przypadków ( 0„s”), wówczas reguła mówi „uwzględnij tylko 1 predyktor”. Ale co jeśli wymodeluję te 0zamiast tych 1, a następnie wezmę odwrotność oszacowanych ilorazów szans? Czy mogę dołączyć 9 predyktorów? To nie ma dla mnie sensu.
boscovich,
Droga Andreo, powiedziałem to samo, co masz na myśli. Spośród 154 respondentów jest 73 przypadki (1 i pozostałe 0). Czy możesz rzucić nieco światła na moje pytanie. Dzięki!
Braj-Stat,
4
W komentarzu przeczytałem, że należy spojrzeć na minimalną liczbę zdarzeń i nie-zdarzeń. Tak więc w przykładzie 10/100 otrzymujesz jeden predyktor, niezależnie od tego, jak go kodujesz.
psj
@psj to brzmi rozsądnie. Czy masz jakieś referencje?
boscovich
1
Powiązana jest tutaj dyskusja: minimalna liczba obserwacji regresji logistycznej .
gung - Przywróć Monikę

Odpowiedzi:

25

Jest tu kilka problemów.

Zazwyczaj chcemy ustalić minimalną wielkość próby, aby osiągnąć minimalnie akceptowalny poziom mocy statystycznej . Wymagana wielkość próby jest funkcją kilku czynników, przede wszystkim wielkości efektu, który chcesz odróżnić od 0 (lub jakiejkolwiek wartości zerowej, której używasz, ale 0 jest najczęściej), a także minimalnego prawdopodobieństwa złapania tego efektu chcę mieć. W tej perspektywie wielkość próbki jest określana na podstawie analizy mocy.

Innym aspektem jest stabilność twojego modelu (jak zauważa @cbeleites). Zasadniczo, ponieważ stosunek szacowanych parametrów do liczby danych zbliża się do 1, Twój model zostanie nasycony i koniecznie będzie nadmierny (chyba że w systemie nie ma przypadkowości). Z tej perspektywy wynika praktyczna zasada stosunku 1 do 10. Pamiętaj, że posiadanie odpowiedniej mocy na ogół zaspokoi tę troskę, ale nie odwrotnie.

Jednak reguła 1 do 10 pochodzi ze świata regresji liniowej i ważne jest, aby pamiętać, że regresja logistyczna ma dodatkowe złożoności. Jednym z problemów jest to, że regresja logistyczna działa najlepiej, gdy procent 1 i 0 wynosi około 50% / 50% (jak omawiają @andrea i @psj w powyższych komentarzach). Inną kwestią, którą należy się zająć, jest separacja . Oznacza to, że nie chcesz, aby wszystkie twoje 1 były zbierane na jednym skrajniku niezależnej zmiennej (lub pewnej ich kombinacji), a wszystkie zera na drugim biegunie. Chociaż wydaje się, że jest to dobra sytuacja, ponieważ ułatwiłoby to idealne przewidywanie, w rzeczywistości wysadza proces szacowania parametrów. (@Scortchi doskonale omawia tutaj sposób radzenia sobie z separacją w regresji logistycznej:Jak radzić sobie z idealną separacją w regresji logistycznej? ) Przy większej liczbie IV, staje się to bardziej prawdopodobne, nawet jeśli prawdziwe wielkości efektów są utrzymywane na stałym poziomie, a zwłaszcza, jeśli twoje odpowiedzi są niezrównoważone. Tak więc możesz łatwo potrzebować więcej niż 10 danych na IV.

Ostatnim problemem związanym z tą zasadą jest to, że zakłada ona, że ​​twoje IV są ortogonalne . Jest to uzasadnione w przypadku zaprojektowanych eksperymentów, ale przy takich badaniach obserwacyjnych, jak twoje, twoje IV prawie nigdy nie będą w przybliżeniu ortogonalne. Istnieją strategie radzenia sobie z tą sytuacją (np. Łączenie lub upuszczanie kroplówki, najpierw przeprowadzanie analizy głównych składników itp.), Ale jeśli nie zostanie to rozwiązane (co jest powszechne), będziesz potrzebować więcej danych.

Rozsądnym pytaniem jest zatem, jakie powinno być twoje minimalne N i / lub czy Twoja próbka jest wystarczająca? Aby rozwiązać ten problem, sugeruję skorzystanie z metod omawianych przez @cbeleites; poleganie na zasadzie od 1 do 10 będzie niewystarczające.

gung - Przywróć Monikę
źródło
6
Czy możesz podać odniesienie do stwierdzenia „Jednym z problemów jest to, że regresja logistyczna działa najlepiej, gdy procent 1 i 0 wynosi około 50% / 50%”? Zastanawiam się nad tym sam, ponieważ mam zestaw danych, który jest bardzo daleki od 50/50 i zastanawiam się nad konsekwencjami. (przepraszam za wskrzeszenie wątku)
Trevor
3
Nie widzę żadnego problemu z wskrzeszaniem starego wątku, gdy jest to właściwe, @Trevor. Myślę, że to, czego szukasz, to coś w rodzaju tej miłej odpowiedzi, koniugując wcześniej: robi-nie-niezrównoważoną próbkę-materię-kiedy-robi-regresję logistyczną .
gung - Przywróć Monikę
2
+1 do pytania Trevora. Uważam, że regresja logistyczna nadal będzie czerpać korzyści z nowych danych, nawet jeśli dane te dotyczą tego samego przypadku (pomimo malejących zwrotów). To właśnie niepokoi mnie w technikach uczenia maszynowego, takich jak losowe lasy - że mogą się pogorszyć, dodając bardziej odpowiednie dane szkoleniowe. Być może istnieje punkt, w którym regresja logistyczna załamałaby się ze względów liczbowych, gdyby nierównowaga stała się zbyt poważna. Byłbym zainteresowany, aby dowiedzieć się więcej na ten temat.
Ben Ogorek,
+1, być może wynika to z twojej odpowiedzi. Nie jestem pewien, ale zastanawiam się, jak to działa dla zmiennych jakościowych o różnych poziomach? Czy sugeruje się 10 obserwacji na poziom?
baxx
1
Jest to ogólna zasada, @baxx, ale tak, aby zrobić coś więcej niż tylko oszacować wartości procentowe, potrzebujesz co najmniej 45.
Gung - Przywróć Monikę
16

Zazwyczaj używam reguły 15: 1 (stosunek min (zdarzenia, nie-zdarzenia) do liczby parametrów kandydujących w modelu). Nowsze prace wykazały, że do bardziej rygorystycznej walidacji potrzebna jest 20: 1. Więcej informacji można znaleźć w materiałach z mojego kursu, które można znaleźć na stronie http://biostat.mc.vanderbilt.edu/rms , w szczególności argument za minimalną wielkością próby 96, aby oszacować przecięcie. Ale wymóg dotyczący wielkości próby jest bardziej szczegółowy, a nawet nowszy artykuł zajmuje się tym bardziej kompleksowo.

Frank Harrell
źródło
14

Zwykle zbyt mało przypadków wrt. złożoność modelu (liczba parametrów) oznacza, że ​​modele są niestabilne . Jeśli więc chcesz wiedzieć, czy próbka jest złożona pod względem wielkości / modelu, sprawdź, czy uzyskasz dość stabilny model.

Istnieją (przynajmniej) dwa różne rodzaje niestabilności:

  1. Te parametry modelu znacznie różnić tylko z niewielkimi zmianami w danych treningowych.

  2. Te przewidywania (dla tej samej sprawie) modeli przeszkolonych z niewielkimi zmianami w danych uczących się znacznie różnić.

Możesz zmierzyć 1., sprawdzając, jak bardzo różnią się twoje współczynniki modelu, jeśli dane treningowe są lekko zaburzone. Odpowiednią grupę modeli można obliczyć np. Podczas ładowania początkowego lub (iterowanych) procedur weryfikacji krzyżowej.

W przypadku niektórych typów modeli lub problemów różne parametry nie oznaczają różnych prognoz. Możesz bezpośrednio sprawdzić niestabilność 2. patrząc na zmienność prognoz dla tego samego przypadku (niezależnie od tego, czy są one poprawne, czy nie) obliczonych podczas sprawdzania poprawności po rozruchu lub iteracji krzyżowej.

cbeleites obsługuje Monikę
źródło
5

Nie ma ścisłych reguł, ale można uwzględnić wszystkie zmienne niezależne, o ile zmienne nominalne nie mają zbyt wielu kategorii. Potrzebujesz jednej „beta” dla wszystkich oprócz jednej klasy dla każdej zmiennej nominalnej. Więc jeśli zmienną nominalną powiedziano „obszar pracy” i masz 30 obszarów, to potrzebujesz 29 bet.

Jednym ze sposobów przezwyciężenia tego problemu jest uregulowanie beta - lub ukaranie za duże współczynniki. Pomaga to upewnić się, że model nie przewyższa danych. Normalizacja L2 i L1 są popularnymi wyborami.

Inną kwestią do rozważenia jest to, jak reprezentatywna jest twoja próbka. Z jakiej populacji chcesz wnioskować? czy masz w próbie wszystkie różne typy osób, które są w populacji? trudno będzie dokonać dokładnego wnioskowania, jeśli próbka ma „dziury” (np. brak kobiet w wieku 35–50 lat lub brak pracowników o wysokich dochodach itp.)

prawdopodobieństwo prawdopodobieństwa
źródło
4

Oto aktualna odpowiedź z witryny MedCalc, o której pisał użytkownik user41466

http://www.medcalc.org/manual/logistic_regression.php

Uwagi dotyczące wielkości próbki

Obliczanie wielkości próby dla regresji logistycznej jest złożonym problemem, ale na podstawie pracy Peduzzi i in. (1996) można zasugerować następujące wytyczne dotyczące minimalnej liczby przypadków, które należy uwzględnić w badaniu. Niech p będzie najmniejszym odsetkiem przypadków ujemnych lub dodatnich w populacji, a k liczbą zmiennych towarzyszących (liczbą zmiennych niezależnych), wówczas minimalna liczba przypadków do uwzględnienia to: N = 10 k / p Na przykład: ty mają 3 zmienne towarzyszące do uwzględnienia w modelu, a odsetek przypadków dodatnich w populacji wynosi 0,20 (20%). Minimalna wymagana liczba przypadków to N = 10 x 3 / 0,20 = 150 Jeśli uzyskana liczba jest mniejsza niż 100, należy ją zwiększyć do 100, jak sugeruje Long (1997).

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) Badanie symulacyjne liczby zdarzeń na zmienną w analizie regresji logistycznej. Journal of Clinical Epidemiology 49: 1373-1379.

użytkownik2387584
źródło
Tak więc jest to te same 10 przypadków na niezależną zmienną (z podłogą)
seanv507
1

Wyniki z dowolnego modelu logistycznego z liczbą obserwacji na zmienną niezależną w zakresie od co najmniej pięciu do dziewięciu są wiarygodne, szczególnie jeśli wyniki są istotne statystycznie (Vittinghoff i McCulloch, 2007).

Vittinghoff, E. i McCulloch, CE 2007. Rozluźnienie reguły dziesięciu zdarzeń na zmienną w regresji logistycznej i Coxa. American Journal of Epidemiology, 165 (6): 710–718.

użytkownik143522
źródło
Zauważ, że nie chodzi tu wyłącznie o „liczbę obserwacji na zmienną niezależną”, lecz o liczbę „zdarzeń”. W przypadku regresji logistycznej liczba „zdarzeń” to liczba przypadków w najmniejszej z dwóch klas wyników. Nie będzie to więcej niż 1/2 całkowitej liczby obserwacji, aw niektórych aplikacjach znacznie niższa.
EdM,