Czy stosując średnią k-krotną weryfikację uśredniasz wszystkie modele

Kiedy przeprowadzam walidację krzyżową k-fold, rozumiem, że uzyskujesz miary dokładności, wskazując wszystkie fałdy z wyjątkiem jednego w tym folderze i przewidując, a następnie powtórz ten proces razy. Następnie możesz uruchomić wskaźniki dokładności dla wszystkich swoich instancji (precyzja, przywołanie,% sklasyfikowane poprawnie), które powinny być takie same, jakbyś je obliczał za każdym razem, a następnie uśredniał wynik (popraw mnie, jeśli się mylę). $k$

Końcowy efekt, jaki chcesz, to ostateczny model.

Czy oceniasz uśrednione modele, aby uzyskać zestaw prognoz, aby otrzymać model, który ma metryki dokładności uzyskane powyższą metodą? $k$

cross-validation Kot Walrus
źródło

Odpowiedzi:

Celem krotnej walidacji krzyżowej nie jest stworzenie modelu; jest to porównanie modeli. $k$

Wyniki eksperymentu weryfikacji krzyżowej mogą pokazać, że maszyny wektorów wsparcia przewyższają Naive Bayes na danych lub że parametry hiper klasyfikatora powinny być ustawione na c dla tego konkretnego zestawu danych. Uzbrojeni w tę wiedzę trenujesz klasyfikator „produkcyjny” ze WSZYSTKIM dostępnymi danymi i stosujesz go do swojego problemu.

W wielu przypadkach nie jest nawet jasne, w jaki sposób poszedłbyś w kierunku uśrednienia kilku modeli. Na przykład, jaka jest średnia z trzech drzew decyzyjnych lub klasyfikatorów najbliższego sąsiada?

Ważne jest, aby pamiętać, że wyniki weryfikacji krzyżowej są szacunkami, a nie gwarancjami, a te szacunki są ważniejsze, jeśli klasyfikator produkcji jest przeszkolony z podobną jakością (i ilością) danych. Dużo pracy poświęcono opracowaniu sposobów wykorzystania tych szacunków do wnioskowania; to znaczy, w statystycznie poprawny sposób, ta metoda A jest ogólnie lepsza od metody B w odniesieniu do tych danych.

Matt Krause
źródło

Jakie jest dobre odniesienie do korzystania z szacunków k-krotnej weryfikacji krzyżowej do wnioskowania? Chciałbym przeczytać o tym, jeśli masz dobry udział.

tentaclenorm

Dobrym miejscem na początek może być iro.umontreal.ca/~lisa/bib/pub_subject/finance/pointeurs/... ale istnieje wiele różnych podejść.

Matt Krause

jeszcze jedno do wyjaśnienia: kiedy trenujemy klasyfikator „produkcyjny” z wykorzystaniem wszystkich danych, jak rozumiemy, kiedy przestać?

Anton,