Mam zestaw danych, w którym częstotliwość zdarzeń jest bardzo niska (40 000 z ). Stosuję w tym regresję logistyczną. Rozmawiałem z kimś, gdzie okazało się, że regresja logistyczna nie dałaby dobrej macierzy pomieszania w przypadku tak niskich danych o częstości zdarzeń. Ale z powodu problemu biznesowego i sposobu, w jaki został zdefiniowany, nie mogę zwiększyć liczby zdarzeń z 40 000 do większej liczby, chociaż zgadzam się, że mogę usunąć część żadnej innej populacji.
Proszę, opowiedz mi o swoich opiniach, w szczególności:
- Czy dokładność regresji logistycznej zależy od częstotliwości zdarzeń, czy też jest zalecana minimalna częstotliwość zdarzeń?
- Czy jest jakaś specjalna technika dla danych o niskiej częstotliwości zdarzeń?
- Czy usunięcie mojej nieistniejącej populacji byłoby dobre dla dokładności mojego modelu?
Jestem nowy w modelowaniu statystycznym, więc wybacz moją ignorancję i proszę o rozwiązywanie wszelkich powiązanych problemów, o których mógłbym pomyśleć.
Dzięki,
Odpowiedzi:
Odpowiem na twoje pytania w porządku:
Każda obserwacja dostarczy dodatkowych informacji o parametrze (poprzez funkcję wiarygodności). Dlatego nie ma sensu usuwać danych, ponieważ po prostu tracisz informacje.
Technicznie tak: rzadka obserwacja jest o wiele bardziej pouczająca (tzn. Funkcja prawdopodobieństwa będzie bardziej stroma). Jeśli Twój wskaźnik zdarzeń wynosił 50:50, to uzyskałbyś znacznie ciaśniejsze przedziały ufności (lub wiarygodne interwały, jeśli jesteś Bayesianem) dla tej samej ilości danych . Jednak nie możesz wybrać częstotliwości zdarzeń (chyba że robisz badanie przypadków), więc będziesz musiał zadowolić się tym, co masz.
Największym problemem, który może się pojawić, jest idealna separacja : dzieje się tak, gdy jakaś kombinacja zmiennych daje wszystkie nie-zdarzenia (lub wszystkie zdarzenia): w tym przypadku oszacowania parametru maksymalnego prawdopodobieństwa (i ich standardowych błędów) zbliżą się do nieskończoności (chociaż zwykle algorytm zatrzyma się wcześniej). Istnieją dwa możliwe rozwiązania:
a) usuwanie predyktorów z modelu: chociaż spowoduje to, że algorytm się zbiegnie, usuniesz zmienną o największej mocy wyjaśniającej, więc ma to sens tylko wtedy, gdy twój model był przeregulowany na początku (na przykład dopasowanie zbyt wielu skomplikowanych interakcji) .
b) zastosować jakąś karę, taką jak wcześniejszy podział, który zmniejszy szacunki do bardziej rozsądnych wartości.
źródło
glm
funkcji R. W najgorszym przypadku jest to jak wyrzucenie części każdego zważonego punktu danych, jak sądzę, ale tak naprawdę to nie to samo. 2) Jak powiedziałem, z tą decyzją wiążą się kompromisy. Prawdopodobnie ma to największy sens w kontekstach, w których próbka populacji nie jest dobrze zdefiniowana, a rzeczywista częstość zdarzeń nie ma znaczenia na początek. Z pewnością nie poleciłbym tego na całym forum.Jest lepsza alternatywa dla usuwania żadnych zdarzeń dla danych czasowych lub przestrzennych: możesz agregować swoje dane w czasie / przestrzeni i modelować liczby jako Poissona. Na przykład, jeśli Twoim zdarzeniem jest „erupcja wulkanu nastąpi w dniu X”, wówczas nie będzie wiele dni erupcji wulkanu. Jeśli jednak zgrupujesz dni w tygodnie lub miesiące, np. „Liczba erupcji wulkanicznych w miesiącu X”, zmniejszysz liczbę zdarzeń, a więcej zdarzeń będzie miało niezerowe wartości.
źródło