Staram się znaleźć najlepszy sposób, aby przewidzieć kwotę płatności dla agencji windykacyjnej. Zmienna zależna jest różna od zera tylko po dokonaniu płatności. Zrozumiałe jest, że istnieje ogromna liczba zer, ponieważ większość ludzi nie jest w stanie dotrzeć lub nie jest w stanie spłacić długu.
Istnieje również bardzo silna ujemna korelacja między kwotą długu a prawdopodobieństwem dokonania płatności. Zazwyczaj tworzyłbym model logistyczny, aby przewidzieć prawdopodobieństwo wypłaty / wypłaty, ale ma to niefortunną konsekwencję znalezienia osób o najniższych saldach.
Czy istnieje sposób na połączenie logistycznego modelu płatnego / niepłaconego z osobnym modelem przewidującym kwotę płatności?
regression
predictive-models
logistic
Zelazny7
źródło
źródło
Odpowiedzi:
Pomysł na zbudowanie modelu dwustopniowego jest właściwą drogą, jednak należy wziąć pod uwagę szczególną trudność konfiguracji, którą jest bardzo silną ujemną korelację między kwotą zadłużenia a prawdopodobieństwem dokonania płatności
Podstawową kwestią przy budowaniu tutaj dwustopniowego modelu jest to, że drugi model (do prognozowania długu), zbudowany wyłącznie na „zerach”, jest oparty na najbardziej prawdopodobnej nielosowej próbie populacji ( tj. cały zestaw danych), ale połączony model należy ponownie zastosować do całej populacji. Oznacza to, że drugi model będzie musiał przewidzieć części danych, których nigdy wcześniej nie widział, co spowoduje utratę dokładności. Nazywa się to uprzedzeniem wyboru próbki (dla przeglądu z perspektywy ML polecam A Bayesian Network Framework for Reject Inference by Smith and Elkan).
Puchar KDD-98 do czynienia z podobnym problemie gdzie należałoby przewidzieć, czy dawca dla organizacji weteranów jest prawdopodobne, aby ponownie oddać i ile jest prawdopodobne, aby podarować. W tym zestawie danych prawdopodobieństwo ponownego przekazania darowizny również było ujemnie skorelowane z oczekiwaną kwotą pieniędzy. Pojawiło się również odchylenie wyboru próbki.
Rozwiązanie, które wywarło na mnie największe wrażenie, znajduje się w Nauce i podejmowaniu decyzji, gdy zarówno koszty, jak i prawdopodobieństwa są nieznane przez Biancę Zadrożnego i Charlesa Elkan. Stworzyli rozwiązanie wrażliwe na koszty w oparciu o korektę Heckmana , która według mojej wiedzy jest pierwszym systematycznym podejściem do korygowania błędu selekcji (próbki).
źródło
To bardzo miłe pytanie (+1).
Dlaczego nie traktować zer tak, jakby były NA?
Możesz dodać fałszywą odpowiedź wskazującą, czy jakieś pieniądze zostały odzyskane ( tj Równe 0, gdy wartość wynosi 0, i 1, gdy wartość jest dodatnia) i dopasować model logistyczny do tej odpowiedzi binarnej z tymi samymi predyktorami. Pasowałbyś do 2 modeli: odpowiedź binarna wykorzystująca wszystkie punkty danych i odpowiedź ciągła wykorzystująca tylko niezerowe punkty danych (zgodnie z ideą traktowania 0 jako NA).
Nadal możesz przetestować nieważność parametrów w każdym modelu i obliczyć oczekiwane wzmocnienie, używając obu zestawów parametrów.
źródło