Czy szacunkowe odchylenia standardowe są obliczane za pomocą:
( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation )
dla dokładności prognoz z 10-krotnej walidacji krzyżowej? Obawiam się, że dokładność prognozy obliczana między poszczególnymi zakładkami zależy od znacznego nakładania się zestawów treningowych (chociaż zestawy prognoz są niezależne). Wszelkie zasoby, które o tym dyskutują, byłyby bardzo pomocne.
confidence-interval
cross-validation
prediction
prediction-interval
Christopher Dorian
źródło
źródło
Odpowiedzi:
IMHO nakładanie się zestawów treningowych nie musi być tutaj dużym problemem. To znaczy, oczywiście ważne jest sprawdzenie, czy modele są stabilne. Stabilny oznacza, że prognozy modeli zastępczych walidacji krzyżowej są równoważne (tj. Niezależny przypadek uzyskałby taką samą prognozę dla wszystkich tych modeli), aw rzeczywistości krzyżowa walidacja zwykle twierdzi równoważność nie tylko między modelami zastępczymi, ale także modelem wyuczonym we wszystkich skrzynie Ta zależność jest raczej konsekwencją tego, co chcemy mieć.
Dotyczy to typowego pytania: jeśli trenuję model na tych danych, jakie są przedziały prognozowania? Jeśli pytanie brzmi: jeśli trenujemy model przypadków tej populacji, jakie są przedziały prognozowania? Nie możemy odpowiedzieć na to pytanie, ponieważ to nakładanie się w zestawach szkoleniowych oznacza, że nie doceniamy wariancji o nieznaną wartość.n
Jakie są konsekwencje w porównaniu z testowaniem z niezależnym zestawem testowym?
Jeśli jednak modele są stabilne, wariancja ta jest niewielka / nieistotna. Ponadto można zmierzyć ten rodzaj stabilności.
Co może nie być mierzony jest jak przedstawiciel cały zestaw danych w porównaniu do populacji było wyciągnąć z. Obejmuje to część błędu końcowego modelu (jednak również mały niezależny zestaw testowy może mieć błąd) i oznacza to, że odpowiadającej wariancji nie można oszacować przez walidację krzyżową.
W praktyce aplikacyjnej (wydajność modelu wyuczonego na tych danych) obliczanie przedziału prognozy napotkałoby problemy, które IMHO są ważniejsze niż to, której części walidacji krzyżowej wariancji nie można wykryć: np.
To coś więcej niż tylko krzyżowa walidacja vs. niezależny zestaw testów: w zasadzie trzeba usiąść i zaprojektować badanie walidacji, w przeciwnym razie istnieje wysokie ryzyko, że „niezależny” zestaw testów nie będzie aż tak niezależny. Po wykonaniu tej czynności można zastanowić się, które czynniki mogą mieć praktyczne znaczenie, a które można pominąć. Możesz dojść do wniosku, że po dokładnym przeanalizowaniu, waloryzacja krzyżowa jest wystarczająco dobra i rozsądna, ponieważ niezależna walidacja byłaby o wiele za droga w porównaniu z możliwym zyskiem z informacji.
Podsumowując, zwykłej formuły dla odchylenia standardowego, nazwałbym to analogicznie do i szczegółowo jak przeprowadzono test.sdoV. R MS.midoV.
źródło