Chciałbym ocenić kilka różnych modeli, które przewidują zachowanie na poziomie miesięcznym. Dane są zbilansowane, a 100 000, a 12. Rezultatem jest udział w koncercie w danym miesiącu, więc wynosi około 80% ludzi w dowolnym miesiącu, ale długi ogon dużych użytkowników jest długi. Przewidywane przeze mnie przewidywania wydają się nie szanować obliczeniowego charakteru wyniku: przeważają koncerty ułamkowe.
Nic nie wiem o modelach. Obserwuję tylko 6 różnych prognoz czarnej skrzynki dla każdej osoby na miesiąc. Mam dodatkowy rok danych, których twórcy modeli nie mieli do oszacowania (choć uczestnicy koncertu pozostają tacy sami) i chciałbym ocenić, gdzie każdy z nich dobrze sobie radzi (pod względem dokładności i precyzji). Na przykład, czy jakiś model dobrze przewiduje częste koncerty, ale zawodzi w przypadku ziemniaków na kanapie? Czy prognoza na styczeń jest lepsza niż prognoza na grudzień? Alternatywnie, miło byłoby wiedzieć, że prognozy pozwalają mi poprawnie klasyfikować ludzi pod względem faktów, nawet jeśli nie można ufać dokładnej wielkości.
Moją pierwszą myślą było uruchomienie regresji efektów rzeczywistych dla manekinów przewidywanych i czasowych oraz przyjrzenie się RMSE lub dla każdego modelu. Ale to nie odpowiada na pytanie, gdzie każdy model ma się dobrze lub czy różnice są znaczące (chyba że uruchomię RMSE). Takie podejście martwi mnie również rozkładem wyników.
Moim drugim pomysłem było podzielenie wyniku na 0, 1-3 i 3+ i obliczenie macierzy zamieszania, ale ignoruje to wymiar czasowy, chyba że zrobię 12 z nich. Jest również dość gruboziarnisty.
Zdaję sobie sprawę z poleceń Stata concord
TJ Steichena i NJ Coxa - które mają taką by()
opcję, ale wymagałoby to zwijania danych do sum rocznych. Oblicza to wskaźnik korelacji zgodności Lin z przedziałami ufności, wśród innych przydatnych statystyk. Zakres CCC wynosi od -1 do 1, z idealną zgodnością na poziomie 1.
Jest też Harrella (obliczony
przez R. Newsona), który ma tę opcję, ale nie jestem pewien, czy pozwoliłbym sobie poradzić z danymi panelu. Daje to przedziały ufności. C Harrella jest uogólnieniem obszaru pod krzywą ROC (AUC) dla uzyskania ciągłego wyniku. Jest to proporcja wszystkich par, które można uporządkować w taki sposób, że obiekt z wyższą prognozą faktycznie ma wyższy wynik. Zatem dla losowych predykcji dla modelu doskonale dyskryminującego. Zobacz książkę Harrella , s. 493somersd
cluster
Jak poradziłbyś sobie z tym problemem? Czy sugerowałbyś obliczanie statystyk takich jak MAPE, które są powszechne w prognozowaniu?
Przydatne rzeczy znalezione do tej pory:
- Prezentuje wersję współczynnika korelacji zgodności dla Lin wielokrotnego
źródło
Odpowiedzi:
Aby ocenić zdolność prognostyczną pół-Markowa, istnieje wiele metod dostępnych w zależności od wielkości próby i innych dostępnych informacji.
Do oceny dowolnego modelu predykcyjnego / prognostycznego masz możliwość walidacji krzyżowej (w szczególności pomijanej lub iteracyjnej walidacji krzyżowej próby podzielonej), w której model jest szacowany na próbie „szkoleniowej”, a niepewność modelu oceniana na podstawie „walidacji” próba. W zależności od rozkładu wyniku dostępnych jest wiele miar, za pomocą których można wybrać model spośród panelu kwalifikujących się modeli. W przypadku ogólnych nieparametrycznych miar do wyboru modelu ludzie naprawdę lubią AIC i BIC, szczególnie te ostatnie.
Statystyki CCC i c służą do oceny binarnych prognoz przekrojowych, takich jak testy / testy, więc będziesz musiał je wykluczyć, jeśli przewidujesz, powiedzmy, BMI lub IQ. Mierzą kalibrację (jak test Hosmera Lemeshowa) i tak zwaną zdolność do stratyfikacji ryzyka. Brak intuicyjnego połączenia z ciągłymi wynikami tam, przynajmniej nie o ile wiem.
Z drugiej strony RMSE służy do oceny ciągłych prognoz (z wyjątkiem przypadku przewidywania ryzyka, w którym RMSE jest określany jako wynik Briera, dość archaiczne i przestarzałe narzędzie oceny modelu). Jest to doskonałe narzędzie i prawdopodobnie służy do kalibracji w górę 80% modeli predykcyjnych, które spotykamy codziennie (prognozy pogody, oceny energii, MPG w pojazdach itp.).
Zastrzeżenie dotyczące walidacji podzielonej próby lub ponownego próbkowania w celu oceny modeli prognostycznych polega na tym, że przyszłe wyniki mogą Cię zainteresować tylko wtedy, gdy próba nie pozwoli Ci przewidzieć przeszłych wyników. Nie rób tego! Nie odzwierciedla zastosowania modeli i może znacznie wpłynąć na wybór w negatywny sposób. Wyświetlaj wszystkie dostępne informacje i przewiduj przyszłe, nieobserwowane wyniki we wszystkich dostępnych przypadkach.
Prawie każda książka o zastosowanych modelach liniowych obejmie prognozowanie, RMSE oraz niuanse modeli treningowych i walidacyjnych. Dobrym początkiem byłyby Kutner, Nachtsheim, Neter, Li, a także rozważyć Diggle „Analiza szeregów czasowych”, Diggle Heagerty Zeger Li, „Analiza danych podłużnych” i potencjalnie „Strategie modelowania regresji Harrella”.
źródło