Metryka oceny prognozy dla danych panelowych / podłużnych

Chciałbym ocenić kilka różnych modeli, które przewidują zachowanie na poziomie miesięcznym. Dane są zbilansowane, a 100 000, a 12. Rezultatem jest udział w koncercie w danym miesiącu, więc wynosi około 80% ludzi w dowolnym miesiącu, ale długi ogon dużych użytkowników jest długi. Przewidywane przeze mnie przewidywania wydają się nie szanować obliczeniowego charakteru wyniku: przeważają koncerty ułamkowe. $n=$ $T=$

Nic nie wiem o modelach. Obserwuję tylko 6 różnych prognoz czarnej skrzynki dla każdej osoby na miesiąc. Mam dodatkowy rok danych, których twórcy modeli nie mieli do oszacowania (choć uczestnicy koncertu pozostają tacy sami) i chciałbym ocenić, gdzie każdy z nich dobrze sobie radzi (pod względem dokładności i precyzji). Na przykład, czy jakiś model dobrze przewiduje częste koncerty, ale zawodzi w przypadku ziemniaków na kanapie? Czy prognoza na styczeń jest lepsza niż prognoza na grudzień? Alternatywnie, miło byłoby wiedzieć, że prognozy pozwalają mi poprawnie klasyfikować ludzi pod względem faktów, nawet jeśli nie można ufać dokładnej wielkości. $\hat y_1,...,\hat y_6$

Moją pierwszą myślą było uruchomienie regresji efektów rzeczywistych dla manekinów przewidywanych i czasowych oraz przyjrzenie się RMSE lub dla każdego modelu. Ale to nie odpowiada na pytanie, gdzie każdy model ma się dobrze lub czy różnice są znaczące (chyba że uruchomię RMSE). Takie podejście martwi mnie również rozkładem wyników. $R^2$

Moim drugim pomysłem było podzielenie wyniku na 0, 1-3 i 3+ i obliczenie macierzy zamieszania, ale ignoruje to wymiar czasowy, chyba że zrobię 12 z nich. Jest również dość gruboziarnisty.

Zdaję sobie sprawę z poleceń Stata concordTJ Steichena i NJ Coxa - które mają taką by()opcję, ale wymagałoby to zwijania danych do sum rocznych. Oblicza to wskaźnik korelacji zgodności Lin z przedziałami ufności, wśród innych przydatnych statystyk. Zakres CCC wynosi od -1 do 1, z idealną zgodnością na poziomie 1.

Jest też Harrella (obliczony przez R. Newsona), który ma tę opcję, ale nie jestem pewien, czy pozwoliłbym sobie poradzić z danymi panelu. Daje to przedziały ufności. C Harrella jest uogólnieniem obszaru pod krzywą ROC (AUC) dla uzyskania ciągłego wyniku. Jest to proporcja wszystkich par, które można uporządkować w taki sposób, że obiekt z wyższą prognozą faktycznie ma wyższy wynik. Zatem dla losowych predykcji dla modelu doskonale dyskryminującego. Zobacz książkę Harrella , s. 493 $c$ somersdcluster $c=0.5$ $c=1$

Jak poradziłbyś sobie z tym problemem? Czy sugerowałbyś obliczanie statystyk takich jak MAPE, które są powszechne w prognozowaniu?

Przydatne rzeczy znalezione do tej pory:

Prezentuje wersję współczynnika korelacji zgodności dla Lin wielokrotnego

repeated-measures predictive-models stata panel-data validation Dimitriy V. Masterov
źródło

Będziemy musieli dowiedzieć się więcej o zachowaniu, czy jest to wartość porządkowa / binarna / ciągła? Ponieważ ten eksperyment jest podłużny, czy interesuje Cię prognozowanie lub przewidywanie wyników u danej osoby? Modele mieszanych efektów służą do wnioskowania, a nie przewidywania. Nie działają, ponieważ, aby przewidzieć , potrzebujesz oszacowania losowego efektu.

AdamO,

Rzeczywiste zachowanie się liczy albo jest ciągłe. Prognozy są ciągłe. Chciałbym zobaczyć, jak dobre są prognozy miesięczne na poziomie indywidualnym.

Dimitriy V. Masterov,

„Miesięczne prognozy na poziomie indywidualnym” u osób, które obserwowałeś poprzednie dane lub osób podczas wstępnej oceny? IE czy otrzymujesz lub lub lub ... proszę wyjaśnić, ponieważ przewidywanie z podłużnej nie jest falistą sprawą

\hat{Y_{i = 12}} = f (X_{i = 12, 11, \dots, 1}, Y_{i = 11, 10, \dots, 1}

$\widehat{Y_{i=12}} = f(X_{i=12, 11, \cdots, 1}, Y_{i=11, 10, \cdots, 1}$

\hat{Y_{i = I}} = f (X_{i = I, I - 1, \dots, 1}, Y_{i = I - 1, I - 2, \dots, 1}

$\widehat{Y_{i=I}} = f(X_{i=I, I-1, \cdots, 1}, Y_{i=I-1, I-2, \cdots, 1}$

\hat{Y_{i}} = f (X_{i})

$\widehat{Y_{i}} = f(X_{i})$

AdamO

Jest to próbka osób, które zostały wykorzystane do oszacowania, ale prognoza dotyczy roku po oknie oszacowania. Prognoza na pierwszy miesiąc jest funkcją opóźnionego, obserwowanego zachowania i obserwowanych zmiennych towarzyszących dla osoby :Oczekuję, że pierwszy miesiąc będzie bardzo blisko. W drugim miesiącu (i później) jest to funkcja przewidywania z poprzedniego miesiąca i obserwowanych zmiennych towarzyszących w tym miesiącu: . Oczekuję, że ta prognoza będzie coraz bardziej odbiegać od rzeczywistości. Chcę porównać i .

i

$i$

{\hat{Y}}_{i, 1} = f (Y_{i, t - 1}, X_{i, t}) .

$\hat Y_{i,1}=f(Y_{i,t-1},X_{i,t}).$

{\hat{Y}}_{i, 2} = f ({\hat{Y}}_{i, 1}, X_{i, 2})

$\hat Y_{i,2}=f(\hat Y_{i,1},X_{i,2})$

Y_{i, t}

$Y_{i,t}$

{\hat{Y}}_{i, t}

$\hat Y_{i,t}$

Dimitriy V. Masterov

estymacja oznacza estymację parametru, który może być częścią „treningu” modelu predykcyjnego, ale myślę, że chcesz powiedzieć, że twoja próbka jest używana do trenowania modelu predykcyjnego. To, co tu piszesz, jest warunkowym procesem semi-markowa i ma unikalne zastosowania w prognozowaniu.

AdamO,

Aby ocenić zdolność prognostyczną pół-Markowa, istnieje wiele metod dostępnych w zależności od wielkości próby i innych dostępnych informacji.

Do oceny dowolnego modelu predykcyjnego / prognostycznego masz możliwość walidacji krzyżowej (w szczególności pomijanej lub iteracyjnej walidacji krzyżowej próby podzielonej), w której model jest szacowany na próbie „szkoleniowej”, a niepewność modelu oceniana na podstawie „walidacji” próba. W zależności od rozkładu wyniku dostępnych jest wiele miar, za pomocą których można wybrać model spośród panelu kwalifikujących się modeli. W przypadku ogólnych nieparametrycznych miar do wyboru modelu ludzie naprawdę lubią AIC i BIC, szczególnie te ostatnie.

Statystyki CCC i c służą do oceny binarnych prognoz przekrojowych, takich jak testy / testy, więc będziesz musiał je wykluczyć, jeśli przewidujesz, powiedzmy, BMI lub IQ. Mierzą kalibrację (jak test Hosmera Lemeshowa) i tak zwaną zdolność do stratyfikacji ryzyka. Brak intuicyjnego połączenia z ciągłymi wynikami tam, przynajmniej nie o ile wiem.

Z drugiej strony RMSE służy do oceny ciągłych prognoz (z wyjątkiem przypadku przewidywania ryzyka, w którym RMSE jest określany jako wynik Briera, dość archaiczne i przestarzałe narzędzie oceny modelu). Jest to doskonałe narzędzie i prawdopodobnie służy do kalibracji w górę 80% modeli predykcyjnych, które spotykamy codziennie (prognozy pogody, oceny energii, MPG w pojazdach itp.).

Zastrzeżenie dotyczące walidacji podzielonej próby lub ponownego próbkowania w celu oceny modeli prognostycznych polega na tym, że przyszłe wyniki mogą Cię zainteresować tylko wtedy, gdy próba nie pozwoli Ci przewidzieć przeszłych wyników. Nie rób tego! Nie odzwierciedla zastosowania modeli i może znacznie wpłynąć na wybór w negatywny sposób. Wyświetlaj wszystkie dostępne informacje i przewiduj przyszłe, nieobserwowane wyniki we wszystkich dostępnych przypadkach.

Prawie każda książka o zastosowanych modelach liniowych obejmie prognozowanie, RMSE oraz niuanse modeli treningowych i walidacyjnych. Dobrym początkiem byłyby Kutner, Nachtsheim, Neter, Li, a także rozważyć Diggle „Analiza szeregów czasowych”, Diggle Heagerty Zeger Li, „Analiza danych podłużnych” i potencjalnie „Strategie modelowania regresji Harrella”.

AdamO
źródło

CCC i c Harrella można stosować z ciągłymi wynikami. CCC wdrożyło również środki powtarzane. Zobacz referencje / linki, które dodałem w pytaniu.

Dimitriy V. Masterov

Nie ma znaczenia Nie klasyfikujesz.

AdamO,

Metryka oceny prognozy dla danych panelowych / podłużnych

Odpowiedzi: