Chciałbym, aby twoje przemyślenia na temat różnic między weryfikacją krzyżową a ładowaniem początkowym oszacowały błąd prognozowania.
Czy lepiej działa w przypadku małych zestawów danych lub dużych zestawów danych?
Chciałbym, aby twoje przemyślenia na temat różnic między weryfikacją krzyżową a ładowaniem początkowym oszacowały błąd prognozowania.
Czy lepiej działa w przypadku małych zestawów danych lub dużych zestawów danych?
Sprowadza się to do wariancji i uprzedzeń (jak zwykle). CV jest zwykle mniej tendencyjne, ale krotnie CV ma dość dużą wariancję. Z drugiej strony, ładowanie początkowe ma tendencję do drastycznego zmniejszania wariancji, ale daje bardziej stronnicze wyniki (zwykle są pesymistyczne). Inne metody ładowania początkowego zostały dostosowane do radzenia sobie z błędem ładowania początkowego (takie jak reguły 632 i 632+).
Dwoma innymi podejściami byłoby „Monte Carlo CV”, zwane również „CV z pominięciem grupy”, które wykonuje wiele losowych podziałów danych (coś w rodzaju podziałów mini-treningowych i testowych). Wariancja jest bardzo niska dla tej metody, a błąd nie jest zbyt zły, jeśli odsetek danych w wstrzymaniu jest niski. Również powtórzone CV kilkakrotnie K-krotnie i uśrednia wyniki podobne do zwykłego K-krotnie. Jestem tego częściowo stronniczy, ponieważ utrzymuje niskie uprzedzenie i zmniejsza wariancję.
W przypadku dużych próbek próby problemy z wariancją stają się mniej ważne, a część obliczeniowa jest bardziej problemem. Nadal trzymałbym się powtarzanego CV dla małych i dużych próbek.
Niektóre istotne badania są poniżej (szczególnie Kim i Molinaro).
Bengio, Y. i Grandvalet, Y. (2005). Błąd systematyczny w szacowaniu wariancji k-krotnej walidacji krzyżowej. Modelowanie i analiza statystyczna dla złożonych problemów z danymi, 75–95.
Braga-Neto, UM (2004). Czy walidacja krzyżowa jest ważna dla klasyfikacji mikromacierzy małych próbek Bioinformatics, 20 (3), 374–380. doi: 10.1093 / bioinformatics / btg419
Efron, B. (1983). Szacowanie poziomu błędu reguły predykcji: poprawa walidacji krzyżowej. Journal of American Statistics Association, 316–331.
Efron, B., i Tibshirani, R. (1997). Ulepszenia w zakresie wzajemnej weryfikacji:. 632+ metoda ładowania początkowego. Journal of American Statistics Association, 548–560.
Furlanello, C., Merler, S., Chemini, C., i Rizzoli, A. (1997). Zastosowanie reguły bootstrap 632+ do danych ekologicznych. WIRN 97.
Jiang, W. i Simon, R. (2007). Porównanie metod ładowania początkowego i dostosowane podejście ładowania początkowego do oszacowania błędu prognozowania w klasyfikacji mikromacierzy. Statystyka w medycynie, 26 (29), 5320–5334.
Jonathan, P., Krzanowski, W., i McCarthy, W. (2000). W sprawie zastosowania weryfikacji krzyżowej do oceny wyników w prognozowaniu wielowymiarowym. Statystyka i informatyka, 10 (3), 209–229.
Kim, J.-H. (2009). Oszacowanie poziomu błędu klasyfikacji: powtarzana walidacja krzyżowa, powtarzane wstrzymanie i bootstrap. Statystyka obliczeniowa i analiza danych, 53 (11), 3735–3745. doi: 10.1016 / j.csda.2009.04.009
Kohavi, R. (1995). Badanie krzyżowej walidacji i bootstrap do szacowania dokładności i wyboru modelu. Międzynarodowa wspólna konferencja na temat sztucznej inteligencji, 14, 1137–1145.
Martin, J., i Hirschberg, D. (1996). Statystyka małych prób dla klasyfikacji poziomów błędu I: Pomiary wskaźnika błędu.
Molinaro, AM (2005). Oszacowanie błędu prognozy: porównanie metod ponownego próbkowania. Bioinformatics, 21 (15), 3301–3307. doi: 10.1093 / bioinformatics / bti499
Sauerbrei, W., i Schumacher 1, M. (2000). Bootstrap i walidacja krzyżowa w celu oceny złożoności modeli regresji opartych na danych. Analiza danych medycznych, 26–28.
Tibshirani, RJ i Tibshirani, R. (2009). Korekta odchylenia dla minimalnego poziomu błędu w walidacji krzyżowej. Przedruk Arxiv arXiv: 0908.2904.
@Frank Harrell wykonał wiele pracy nad tym pytaniem. Nie znam konkretnych referencji.
Ale raczej widzę te dwie techniki jako przeznaczone do różnych celów. Krzyżowa walidacja jest dobrym narzędziem przy podejmowaniu decyzji o modelu - pomaga uniknąć oszukiwania się w myśleniu, że masz dobry model, gdy w rzeczywistości jesteś nadmiernie dopasowany.
Kiedy twój model jest naprawiony, wtedy użycie bootstrap ma większy sens (przynajmniej dla mnie).
Istnieje wprowadzenie do tych pojęć (plus testy permutacji) przy użyciu R na http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html
źródło
Rozumiem, że ładowanie początkowe jest sposobem na oszacowanie niepewności w twoim modelu, podczas gdy walidacja krzyżowa jest używana do wyboru modelu i pomiaru dokładności predykcyjnej.
źródło
Jedną różnicą jest to, że walidacja krzyżowa, podobnie jak jackknife, wykorzystuje wszystkie twoje punkty danych, podczas gdy ładowanie początkowe, które losowo próbkuje twoje dane, może nie osiągnąć wszystkich punktów.
Możesz uruchomić tak długo, jak chcesz, co oznacza większe ponowne próbkowanie, co powinno pomóc w przypadku mniejszych próbek.
Krzyżowa walidacja lub średnia wartość dla scyzoryka będą takie same jak średnia dla próbki, podczas gdy średnia dla bootstrapu prawdopodobnie nie będzie taka sama jak dla średniej dla próbki.
Ponieważ walidacja krzyżowa i waga scyzoryka wszystkie punkty próbki są takie same, powinny mieć mniejszy (choć prawdopodobnie niepoprawny) przedział ufności niż bootstrap.
źródło
Są to dwie techniki ponownego próbkowania:
W ramach walidacji krzyżowej losowo dzielimy dane na kfold i pomaga to w nadmiernym dopasowaniu, ale takie podejście ma swoją wadę. Ponieważ wykorzystuje losowe próbki, niektóre próbki powodują poważny błąd. Aby zminimalizować CV ma techniki, ale nie jest tak potężny z problemami z klasyfikacją. Bootstrap pomaga w tym, poprawia błąd z własnej kontroli próbki .. po szczegóły, proszę zapoznać się ..
https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf
źródło