Stosowanie regresji logistycznej z niskim wskaźnikiem zdarzeń

15

Mam zestaw danych, w którym częstotliwość zdarzeń jest bardzo niska (40 000 z ). Stosuję w tym regresję logistyczną. Rozmawiałem z kimś, gdzie okazało się, że regresja logistyczna nie dałaby dobrej macierzy pomieszania w przypadku tak niskich danych o częstości zdarzeń. Ale z powodu problemu biznesowego i sposobu, w jaki został zdefiniowany, nie mogę zwiększyć liczby zdarzeń z 40 000 do większej liczby, chociaż zgadzam się, że mogę usunąć część żadnej innej populacji.12105

Proszę, opowiedz mi o swoich opiniach, w szczególności:

  1. Czy dokładność regresji logistycznej zależy od częstotliwości zdarzeń, czy też jest zalecana minimalna częstotliwość zdarzeń?
  2. Czy jest jakaś specjalna technika dla danych o niskiej częstotliwości zdarzeń?
  3. Czy usunięcie mojej nieistniejącej populacji byłoby dobre dla dokładności mojego modelu?

Jestem nowy w modelowaniu statystycznym, więc wybacz moją ignorancję i proszę o rozwiązywanie wszelkich powiązanych problemów, o których mógłbym pomyśleć.

Dzięki,

ayush biyani
źródło
3
40000 / 12e5 = 3,3%, nie wygląda mi to na bardzo niską stawkę.
GaBorgulya
1
Dzięki ga ... w przypadku, gdy ludzie potrzebują więcej kontekstu do decydowania o niskim i wysokim wskaźniku zdarzeń, dane te dotyczą sektora ubezpieczeń.
ayush biyani
3
Możesz być zainteresowany regresją logistyczną w danych o rzadkich zdarzeniach .
Bernd Weiss

Odpowiedzi:

11

Odpowiem na twoje pytania w porządku:

3 Czy usunięcie mojej nieistniejącej populacji byłoby dobre dla dokładności mojego modelu?

Każda obserwacja dostarczy dodatkowych informacji o parametrze (poprzez funkcję wiarygodności). Dlatego nie ma sensu usuwać danych, ponieważ po prostu tracisz informacje.

1 Czy dokładność regresji logistycznej zależy od częstotliwości zdarzeń, czy też jest zalecana minimalna częstotliwość zdarzeń?

Technicznie tak: rzadka obserwacja jest o wiele bardziej pouczająca (tzn. Funkcja prawdopodobieństwa będzie bardziej stroma). Jeśli Twój wskaźnik zdarzeń wynosił 50:50, to uzyskałbyś znacznie ciaśniejsze przedziały ufności (lub wiarygodne interwały, jeśli jesteś Bayesianem) dla tej samej ilości danych . Jednak nie możesz wybrać częstotliwości zdarzeń (chyba że robisz badanie przypadków), więc będziesz musiał zadowolić się tym, co masz.

2 Czy jest jakaś specjalna technika dla danych o niskiej częstotliwości zdarzeń?

Największym problemem, który może się pojawić, jest idealna separacja : dzieje się tak, gdy jakaś kombinacja zmiennych daje wszystkie nie-zdarzenia (lub wszystkie zdarzenia): w tym przypadku oszacowania parametru maksymalnego prawdopodobieństwa (i ich standardowych błędów) zbliżą się do nieskończoności (chociaż zwykle algorytm zatrzyma się wcześniej). Istnieją dwa możliwe rozwiązania:

a) usuwanie predyktorów z modelu: chociaż spowoduje to, że algorytm się zbiegnie, usuniesz zmienną o największej mocy wyjaśniającej, więc ma to sens tylko wtedy, gdy twój model był przeregulowany na początku (na przykład dopasowanie zbyt wielu skomplikowanych interakcji) .

b) zastosować jakąś karę, taką jak wcześniejszy podział, który zmniejszy szacunki do bardziej rozsądnych wartości.

Simon Byrne
źródło
+1 Chciałbym tylko dodać, że widziałem konteksty, w których ludzie ponownie przeanalizowali swoje dane do 50:50. Kompromisem wydaje się być poprawa zdolności modelu do klasyfikacji (przy założeniu dobrego progu) w porównaniu z pewną utratą informacji o ogólnej częstości występowania i pewnymi dodatkowymi trudnościami w interpretacji współczynników.
David J. Harris
1
@David: Słyszałem również o ludziach zmieniających wagę i korzystających ze skomplikowanych schematów pseudo-bootstrap, w których próbkują tylko klasy wysokiej częstotliwości. W przypadku wszystkich tych technik ostatecznie wyrzucasz (lub wymyślasz) dane. Argumentowałbym, że jeśli poprawi to twój model, prawdopodobnie pasujesz do niewłaściwego modelu. Zobacz także moje komentarze tutaj: stats.stackexchange.com/questions/10356/…
Simon Byrne
1) Przepraszam, jeśli nie byłem jasny: mówiłem o zmianie względnego wpływu zdarzeń i żadnych zdarzeń, jak w przypadku argumentu „wag” w glmfunkcji R. W najgorszym przypadku jest to jak wyrzucenie części każdego zważonego punktu danych, jak sądzę, ale tak naprawdę to nie to samo. 2) Jak powiedziałem, z tą decyzją wiążą się kompromisy. Prawdopodobnie ma to największy sens w kontekstach, w których próbka populacji nie jest dobrze zdefiniowana, a rzeczywista częstość zdarzeń nie ma znaczenia na początek. Z pewnością nie poleciłbym tego na całym forum.
David J. Harris
2

Jest lepsza alternatywa dla usuwania żadnych zdarzeń dla danych czasowych lub przestrzennych: możesz agregować swoje dane w czasie / przestrzeni i modelować liczby jako Poissona. Na przykład, jeśli Twoim zdarzeniem jest „erupcja wulkanu nastąpi w dniu X”, wówczas nie będzie wiele dni erupcji wulkanu. Jeśli jednak zgrupujesz dni w tygodnie lub miesiące, np. „Liczba erupcji wulkanicznych w miesiącu X”, zmniejszysz liczbę zdarzeń, a więcej zdarzeń będzie miało niezerowe wartości.

charles.y.zheng
źródło
6
Muszę powiedzieć, że ta rada w ogóle nie odpowiada na pytanie. 1) Ich pytanie nie sugeruje, że PO zajmuje się danymi przestrzennymi lub czasowymi. 2) W jaki sposób agregacja danych pomogłaby zidentyfikować jakiekolwiek znaczące relacje (wykorzystuje mniej informacji niż oryginalne jednostki!)
Andy W
2
Ponadto, aby zaobserwować związek na poziomie zagregowanym, musi on występować na poziomie oryginalnych jednostek, chociaż związek na poziomie zagregowanym niekoniecznie odzwierciedla to, na czym polega relacja między dwiema zmiennymi na poziomie zdezagregowanym poziom. Zobacz qmrg.org.uk/files/2008/11/38-maup-openshaw.pdf
Andy W
zgadzam się z Andym.
ayush biyani