Jak porównać dokładność dwóch różnych modeli przy użyciu istotności statystycznej

10

Pracuję nad prognozami szeregów czasowych. Muszę dwa zestawy danych re1={x1,x2),....xn} i re2)={xn+1,xn+2),xn+3),....,xn+k} . Mam trzy modele predykcyjne: M.1,M.2),M.3) . Wszystkie te modele są szkolone przy użyciu próbek w zbiorze danychre1 , a ich wydajność jest mierzona przy użyciu próbek w zbiorze danychre2) . Powiedzmy, że metryki wydajności to MSE (lub cokolwiek innego). MSE z tych modeli, gdy mierzone na zbiór danychre2)M.S.mi1,M.S.mi2), iM.S.mi3) . Jak mogę sprawdzić, czy poprawa jednego modelu nad drugim jest statystycznie znacząca.

Na przykład powiedzmy, że M.S.mi1=200 , M.S.mi2)=205 , M.S.mi3)=210 , a całkowita liczba próbek w zestawie danych re2) podstawie których obliczane są te MSE, wynosi 2000. Jak mogę przetestować że M.S.mi1 , M.S.mi2) i M.S.mi3) są znacząco różne. Byłbym bardzo wdzięczny, gdyby ktoś mógł mi pomóc w tym problemie.

Mashud
źródło

Odpowiedzi:

1

Jeden z powyższych postów nawiązuje do korzystania z testu współczynnika wiarygodności, chociaż modele muszą być zagnieżdżone w sobie, aby to zadziałało (tj. Wszystkie parametry w jednym z modeli muszą być obecne w modelu, na którym testujesz) .

RMSE jest wyraźnie miarą tego, jak dobrze model pasuje do danych. Podobnie jest też z ilorazem prawdopodobieństwa. Prawdopodobieństwo dla danej osoby, powiedzmy pani Chen, to prawdopodobieństwo, że osoba o wszystkich jej parametrach odniesie wynik. Wspólne prawdopodobieństwo zbioru danych to prawdopodobieństwo pani Chen * prawdopodobieństwo pani Gundersen * prawdopodobieństwo pani Johnson * ... itd.

Dodanie współzmiennej lub dowolnej liczby współzmiennych nie może tak naprawdę pogorszyć współczynnika prawdopodobieństwa, nie sądzę. Ale może poprawić wskaźnik prawdopodobieństwa o nieistotną kwotę. Modele, które lepiej pasują, będą miały większe prawdopodobieństwo. Możesz formalnie sprawdzić, czy model A lepiej pasuje do modelu B. Powinieneś mieć jakąś funkcję testową LR dostępną w każdym używanym oprogramowaniu, ale w zasadzie statystyka testu LR wynosi -2 * różnica dzienników prawdopodobieństw, a rozkład jest chi-kwadrat z df = różnica liczby parametrów.

Dopuszczalne jest także porównanie AIC lub BIC obu modeli i znalezienie najniższego z nich. AIC i BIC są w zasadzie prawdopodobieństwami dziennika karanymi za liczbę parametrów.

Nie jestem pewien, czy zastosuję test t dla RMSE, i oparłbym się o to, chyba że znajdziesz trochę pracy teoretycznej, która została wykonana w tym obszarze. Zasadniczo, czy wiesz, w jaki sposób wartości RMSE są asymptotycznie rozłożone? Nie jestem pewny. Dalsza dyskusja tutaj:

http://www.stata.com/statalist/archive/2012-11/index.html#01017

Weiwen Ng
źródło
0

Ta odpowiedź nie bierze pod uwagę faktu, że twoje dane tworzą szereg czasowy, ale nie sądzę, żeby to był problem.

Podczas korzystania z RMSE ten post sugeruje zastosowanie testu t: Testowanie istotności RMSE modeli

Możesz także użyć korelacji Pearsona do oceny swojego dopasowania. Zgodnie z tym postem możesz użyć do tego testu t-Wolfe'a: statystycznego znaczenia wzrostu korelacji

Obecnie próbuję dowiedzieć się o tym samym problemie. Byłbym wdzięczny za bardziej szczegółowe odpowiedzi.

buechel
źródło
0

Są dwa główne sposoby, aby to zrobić, ale najpierw podważę pomysł, że chcesz wybrać tylko jeden. Najprawdopodobniej zestaw trzech trzech oddzielnych modeli osiągnie najlepszą wydajność ze wszystkich.

Głównym, być może najlepszym, sposobem na to jest użycie modelu do uzyskania przedziałów ufności wokół metryki oceny. Zwykle odbywa się to za pomocą ładowania początkowego ( lub ładowania początkowego Poissona ).

Innym sposobem jest zastosowanie testu statystycznego. Każdy test przyjmuje inne założenia i są one często używane do porównywania wartości lub próbki pobranej z rozkładu, a nie z oceny pojedynczego punktu. Wiele z tych testów statystycznych wymaga formalnie niezależności, której zwykle nie ma się przy porównywaniu wielu wyników tego samego modelu lub wielu modeli z danymi szeregów czasowych.

W szczególności z prognozowaniem szeregów czasowych powinieneś przeprowadzać testowanie wsteczne z weryfikacją krzyżową i ocenianie błędów pociągu i testu za każdym razem ( przykład ). Gdy to zrobisz, wątpię, aby wszystkie twoje modele działały tak podobnie, że potrzebujesz testu statystycznego, aby rozróżnić; najprawdopodobniej zobaczysz duże różnice.

Należy również zauważyć, że same miary oceny historycznej (porównywanie wartości rzeczywistych z prognozami) są niewystarczające do oceny prognozy. Biorąc pod uwagę dwie prognozy, które doskonale pasują do znanych danych historycznych, ale jedna również pasuje do wcześniejszych przekonań na temat przyszłości, a druga wyraźnie narusza (np. Jeśli jedna zniknie do zera, ale masz powód, by sądzić, że to się nie stanie), wolisz tę prognozę to lepiej pasuje do twojego przeora.

Michael Brundage
źródło