Jeśli mam dane i prowadzę klasyfikację (powiedzmy losowy las na tych danych) z walidacją krzyżową (powiedzmy 5-krotnie), czy mogę dojść do wniosku, że w mojej metodzie nie ma nadmiernego dopasowania?
źródło
Jeśli mam dane i prowadzę klasyfikację (powiedzmy losowy las na tych danych) z walidacją krzyżową (powiedzmy 5-krotnie), czy mogę dojść do wniosku, że w mojej metodzie nie ma nadmiernego dopasowania?
Ani trochę. Jednak krzyżowa weryfikacja pomaga ocenić, na ile Twoja metoda jest zbyt duża.
Na przykład, jeśli twoje dane treningowe R-kwadrat regresji wynoszą 0,50, a cross-walidowany R-kwadrat wynosi 0,48, prawie nie masz przeregulowania i czujesz się dobrze. Z drugiej strony, jeśli crossvalidated R-kwadrat ma tutaj tylko 0,3, to znaczna część wydajności twojego modelu pochodzi z nadmiernego dopasowania, a nie z prawdziwych relacji. W takim przypadku możesz zaakceptować niższą wydajność lub wypróbować różne strategie modelowania z mniejszym przeregulowaniem.
Walidacja krzyżowa jest dobrą, ale nie idealną techniką minimalizującą nadmierne dopasowanie.
Weryfikacja krzyżowa nie przyniesie dobrych wyników w przypadku danych zewnętrznych, jeśli posiadane dane nie są reprezentatywne dla danych, które próbujesz przewidzieć!
Oto dwie konkretne sytuacje, w których walidacja krzyżowa ma wady:
źródło
Mogę również polecić te filmy z kursu Stanforda w nauce statystyki. Te filmy szczegółowo omawiają sposoby skutecznego walidacji krzyżowej.
Weryfikacja krzyżowa i bootstrap (14:01)
K-fold Cross-Validation (13:33)
Walidacja krzyżowa: właściwe i złe sposoby (10:07)
źródło