Powiedzmy, że mamy następujący problem:
Wytypuj, którzy klienci najprawdopodobniej przestaną kupować w naszym sklepie w ciągu najbliższych 3 miesięcy.
Dla każdego klienta znamy miesiąc, w którym zaczęliśmy kupować w naszym sklepie, a ponadto mamy wiele funkcji behawioralnych w agregatach miesięcznych. „Najstarszy” klient kupuje od pięćdziesięciu miesięcy; oznaczmy czas, od którego klient zaczął kupować do ( ). Można założyć, że liczba klientów jest bardzo duża. Jeśli klient przestanie kupować przez trzy miesiące, a następnie wróci, wówczas jest traktowany jak nowy klient, więc zdarzenie (przestań kupować) może wystąpić tylko raz.
Przychodzą mi na myśl dwa rozwiązania:
Regresja logistyczna - dla każdego klienta i każdego miesiąca (może poza 3 ostatnimi miesiącami) możemy powiedzieć, czy klient przestał kupować, czy nie, dzięki czemu możemy wykonać ciągłe próbki z jedną obserwacją na klienta i miesiąc. Możemy wykorzystać liczbę miesięcy od początku jako zmienną kategoryczną, aby uzyskać ekwiwalent podstawowej funkcji zagrożenia.
Rozszerzony model Coxa - ten problem można również modelować przy użyciu rozszerzonego modelu Coxa. Wydaje się, że ten problem bardziej nadaje się do analizy przeżycia.
Pytanie: Jakie są zalety analizy przeżycia w podobnych problemach? Analiza przeżycia została wynaleziona z jakiegoś powodu, więc musi istnieć poważna zaleta.
Moja wiedza na temat analizy przeżycia nie jest bardzo głęboka i myślę, że większość potencjalnych zalet modelu Coxa można również osiągnąć za pomocą regresji logistycznej.
- Odpowiednik stratyfikowanego modelu Coxa można uzyskać za pomocą interakcji i zmiennej stratyfikacyjnej.
- Model interakcji Coxa można uzyskać poprzez zanurzenie populacji w kilku subpopulacjach i oszacowanie LR dla każdej subpopulacji.
Jedyną zaletą, jaką widzę, jest to, że model Coxa jest bardziej elastyczny; na przykład możemy łatwo obliczyć prawdopodobieństwo, że klient przestanie kupować za 6 miesięcy.
coxph
a uzyskiwaniem oszacowań ryzyka są strome i liczne.Analiza przeżycia uwzględnia fakt, że każdy klient ma swój własny czas na wejście do badania. Dlatego fakt, że okres obserwacji różni się w zależności od klienta, nie stanowi problemu.
Uwaga : oto artykuł, który pokazuje, że pod pewnymi ograniczeniami zarówno model logistyczny, jak i model Coxa są ze sobą powiązane.
źródło
Literatura marketingowa sugeruje Pareto / NBD tutaj lub podobny. Zasadniczo zakładasz, że zakup - podczas gdy oni kupują - jest zgodny z ujemnym rozkładem dwumianowym. Ale musisz modelować czas, w którym klient przestaje. To druga część.
Pete Fader i Bruce Hardie mają na ten temat kilka dokumentów, wraz z Abe.
Istnieje kilka prostszych podejść do Pareto / NBD, nawet licząc różne artykuły Fadera i Hardie. NIE używaj prostszego podejścia, w którym zakłada się, że prawdopodobieństwo zatrzymania jest stałe w każdym punkcie czasu - oznacza to, że twoi ciężsi klienci częściej wypadają wcześniej. Jest to prostszy model do dopasowania, ale źle.
Od jakiegoś czasu nie pasowałem do żadnego z nich; przepraszam, że jestem trochę niespecyficzny.
Oto odniesienie do artykułu Abe, który przekształca ten problem w hierarchicznego Bayesa. . Gdybym znów pracował w tej dziedzinie, sądzę, że przetestowałbym to podejście.
źródło