Mam zestaw danych obejmujący zestaw klientów w różnych miastach Kalifornii, czas dzwonienia dla każdego klienta oraz status połączenia (Prawda, jeśli klient odbierze połączenie i False, jeśli klient nie odbierze).
Muszę znaleźć odpowiedni czas na dzwonienie do przyszłych klientów, aby prawdopodobieństwo odebrania połączenia było wysokie. Jaka jest najlepsza strategia dla tego problemu? Czy powinienem uznać to za problem klasyfikacyjny, którym godziny (0,1,2, ... 23) są klasami? A może powinienem uznać to za zadanie regresji, którego czas jest zmienną ciągłą? Jak mogę się upewnić, że prawdopodobieństwo odebrania połączenia będzie wysokie?
Każda pomoc będzie mile widziana. Byłoby również świetnie, gdybyś odniósł mnie do podobnych problemów.
Poniżej znajduje się migawka danych.
źródło
Odpowiedzi:
Możesz napotkać problemy, jeśli modelujesz to jako problem regresji bez odpowiedniej transformacji. Na przykład wiemy, że większość połączeń jest prawdopodobnie odbieranych w ciągu dnia, a mniej w nocy i wczesnym rankiem. Regresja liniowa miałaby trudności, ponieważ związek jest prawdopodobnie krzywoliniowy, a nie liniowy. Z tego samego powodu problematyczne byłoby również potraktowanie tego jako zadania klasyfikacyjnego z regresją logistyczną.
Jak sugerują inni respondenci, przeklasyfikowanie danych do przedziałów czasowych pomoże. Sugeruję, aby najpierw spróbować czegoś w rodzaju drzewa decyzyjnego lub losowego lasu.
To powiedziawszy, może to dotyczyć prostych statystyk opisowych. Jeśli spiszesz odsetek odebranych połączeń według pory dnia (w podziale na miasta lub inne dane demograficzne), czy jest to najlepszy najlepszy moment? Jeśli tak, to po co komplikować model?
źródło
Możesz spróbować:
Ponadto zalecam dodanie dodatkowych funkcji, takich jak zawód, płeć itp., Ponieważ funkcje wymienione w tabeli (miasto itp.) Są zbyt niejednoznaczne i nie dostarczają zbyt wielu informacji do rozróżnienia wśród klientów.
ZMIENIONO zgodnie z sugestią w komentarzach:
Podczas korzystania z modelu każda potencjalna szansa zostanie sklasyfikowana jako preferowany poranek = tak / nie, preferowany popołudnie = tak / nie i preferowany wieczór = tak / nie. Na podstawie pory dnia, na przykład rano, agent call center (lub oprogramowanie) może odbierać i prowadzić kontakty sklasyfikowane w zestawie preferencji porannych. Po południu oprogramowanie wywołujące podnosi się z listy preferowanych w południe i tak dalej.
źródło
Użyłbym regresji logistycznej - będziesz potrzebować próbek, których nie wykryli. Następnie potraktowałbym godzinę jako sezonowy manekin regresor (23 godziny jako zmienne fikcyjne i pozwoliłbym przejść do przechwytywania).
Jeśli nie traktujesz go jako sezonowego manekina regresora, będziesz musiał przeprowadzić jakąś transformację, ponieważ związek nie będzie liniowy.
Ktoś wcześniej sugerował zastąpienie popołudnia itp. Zmienną kategorialną. To zły pomysł, ponieważ masz szczegóły i gubisz je. Miałoby to podobny efekt jak użycie optymalnego binowania, aby uczynić relację liniową, ale nadal nie sądzę, żeby to działało. Wypróbuj sezonowe atrapy regresorów.
źródło