Jak przewidujemy rzadkie zdarzenia?

11

Pracuję nad opracowaniem modelu przewidywania ryzyka ubezpieczeniowego. Modele te mają „rzadkie zdarzenia”, takie jak przewidywanie braku linii lotniczych, wykrywanie usterek sprzętowych itp. Przygotowując zestaw danych, próbowałem zastosować klasyfikację, ale nie mogłem uzyskać przydatnych klasyfikatorów z powodu dużej liczby przypadków negatywnych .

Nie mam dużego doświadczenia w statystyce i modelowaniu danych poza szkolnym kursem statystycznym, więc jestem trochę zdezorientowany.

Zgodnie z pierwszą myślą, zastanawiałem się nad zastosowaniem niejednorodnego modelu procesu Poissona. Sklasyfikowałem je na podstawie danych o zdarzeniach (data, łac., Dł.), Aby uzyskać dobre oszacowanie szansy na ryzyko w określonym czasie w danym dniu w określonym miejscu.

Chciałbym wiedzieć, jakie są metodologie / algorytmy przewidywania rzadkich zdarzeń?
Co polecasz jako sposób na rozwiązanie tego problemu?

użytkownik3378649
źródło

Odpowiedzi:

9

Standardowym podejściem jest „ teoria ekstremalnej wartości ”, istnieje świetna książka na ten temat autorstwa Stuarta Colesa (chociaż obecna cena wydaje się raczej… bł… ekstremalna).

Powodem, dla którego uzyskanie dobrych wyników przy użyciu metod klasyfikacji lub regresji jest mało prawdopodobne, jest to, że metody te zwykle zależą od przewidywania średniej warunkowej danych, a ekstremalne zdarzenia są zwykle spowodowane przez połączenie „losowych” czynników, wszystkie wyrównujące się w tym samym kierunku, są więc w ogonie rozkładu prawdopodobnych wyników, które zwykle są dalekie od średniej warunkowej. To, co możesz zrobić, to przewidzieć cały rozkład warunkowy, a nie tylko jego średnią, i uzyskać informacje o prawdopodobieństwie wystąpienia zdarzenia ekstremalnego poprzez zintegrowanie ogona rozkładu powyżej pewnego progu. Przekonałem się, że działało to dobrze w aplikacji do statystycznego zmniejszania ilości ciężkich opadów .

Dikran Torbacz
źródło
1
Czy jest jakaś implementacja tej teorii w Pythonie?
user3378649,
Niestety, nie programuję w Pythonie (jeszcze), więc nie mogę pomóc.
Dikran Marsupial
yx1,,xny>Y0P.(y>Y0|x1,,xn)mi(y|x1,,xn)y>Y0P.(y>Y0|x1,,xn)
Tak, możesz to zrobić, jednak funkcja kosztów, którą minimalizujesz, nie koncentruje się na prawidłowym ogonach dystrybucji, więc jeśli to jest to, czym jesteś zainteresowany, lepiej spróbować modelować zdarzenia w ogonach w bardziej wyraźny sposób .
Dikran Marsupial,