Upraszczając nieco, mam około miliona rekordów, które rejestrują czas wejścia i wyjścia ludzi w systemie trwającym około dziesięciu lat. Każdy rekord ma czas wejścia, ale nie każdy rekord ma czas wyjścia. Średni czas w systemie wynosi ~ 1 rok.
Brakujące czasy wyjścia występują z dwóch powodów:
- Osoba nie opuściła systemu w momencie przechwytywania danych.
- Czas wyjścia danej osoby nie został zarejestrowany. Zdarza się to powiedzieć, że 50% zapisów
Do interesujących pytań należą:
- Czy ludzie spędzają mniej czasu w systemie i ile mniej czasu.
- Czy rejestruje się więcej czasów wyjścia i ile.
Możemy to modelować, mówiąc, że prawdopodobieństwo zarejestrowania wyjścia zmienia się liniowo w czasie i że czas w systemie ma Weibulla, którego parametry zmieniają się liniowo w czasie. Następnie możemy dokonać oceny maksymalnego prawdopodobieństwa różnych parametrów i spojrzeć na wyniki i uznać je za wiarygodne. Wybraliśmy rozkład Weibulla, ponieważ wydaje się, że jest używany do pomiaru żywotności i fajnie jest powiedzieć, a nie lepiej dopasowywać dane niż powiedzieć rozkład gamma.
Gdzie powinienem szukać wskazówek, jak to zrobić poprawnie? Jesteśmy nieco matematyczni, ale nie bardzo statystycznie.
źródło
Możesz użyć modelu szacunkowego, aby przewidzieć czasy wyjścia dla wszystkich osób w twoim systemie. Następnie możesz porównać szacunkowe czasy wyjścia z rzeczywistymi czasami wyjścia (tam, gdzie masz te dane) i obliczyć metrykę, taką jak RMSE, aby ocenić, jak dobre są twoje przewidywania, co z kolei da ci poczucie dopasowania modelu. Zobacz także ten link .
źródło