[edytowany 21.7.15 08:31 CEST]
Podejrzewam, że użyłeś RF do klasyfikacji. Ponieważ w tym przypadku algorytm wytwarza w pełni dorosłe drzewa z czystymi węzłami końcowymi tylko jednej klasy docelowej.
predict(model, data=X_train)
Ta linia kodowania przypomina psa ścigającego [~ 66%] własnego ogona. Prognozą każdej próbki treningowej jest klasa samej próbki treningowej. W przypadku regresji RF zatrzymuje się, jeśli węzeł zawiera 5 lub mniej próbek lub jeśli węzeł jest czysty. Tutaj błąd prognozowania będzie mały, ale nie będzie wynosił 0%.
W uczeniu maszynowym często pracujemy z dużymi przestrzeniami hipotez. Oznacza to, że zawsze będzie wiele nie sfałszowanych hipotez / wyjaśnień / modeli do struktury danych naszego zestawu szkoleniowego. W statystyce klasycznej przestrzeń hipotezy jest często niewielka, dlatego bezpośrednie dopasowanie modelu ma charakter informacyjny zgodnie z pewną założoną teorią prawdopodobieństwa. W uczeniu maszynowym bezpośredni brak dopasowania odnosi się do stronniczości modelu. Bias to „nieelastyczność” modelu. To niew każdym razie zapewniają przybliżenie mocy uogólniającej (zdolność do przewidywania nowych zdarzeń). W przypadku modeli algorytmicznych walidacja krzyżowa jest najlepszym narzędziem do przybliżania mocy generalizacyjnej, ponieważ nie formułuje się żadnej teorii. Jeśli jednak założenia modelu dotyczące niezależnego próbkowania zawiodą, model może być bezużyteczny, nawet jeśli dobrze przeprowadzona walidacja krzyżowa sugeruje inaczej. Ostatecznie najsilniejszym dowodem jest zadowalające przewidzenie szeregu zewnętrznych zestawów testowych różnego pochodzenia.
Powrót do CV: Out-of-bag jest często akceptowanym typem CV. Osobiście uważam, że OOB-CV zapewnia podobne wyniki jak pięciokrotne CV, ale jest to bardzo niewielka uciążliwość. Jeśli porównać, powiedzmy RF do SVM, to OOB-CV nie jest przydatne, ponieważ normalnie unikalibyśmy pakowania SVM. Zamiast tego zarówno SVM, jak i RF byłyby osadzone w dokładnie tym samym schemacie walidacji krzyżowej, np. 10-krotnie 10-powtórzeń z dopasowanymi partycjami dla każdego powtórzenia. Wszelkie kroki inżynierii cech byłyby często potrzebne do weryfikacji krzyżowej. Jeśli chcesz utrzymać czystość, w życiorysie może być osadzony cały przewód danych.
Jeśli dostrajasz swój model za pomocą zestawu testowego (lub weryfikacji krzyżowej), ponownie pompujesz przestrzeń hipotez, a potwierdzone wyniki prognozowania są prawdopodobnie nadmiernie optymistyczne. Zamiast tego będziesz potrzebować zestawu kalibracyjnego (lub kalibracyjnej pętli CV) do strojenia i zestawu sprawdzania poprawności (lub walidacyjnej pętli CV) do oceny ostatecznego optymalnego modelu.
W skrajnym sensie twój wynik walidacji będzie bezstronny tylko wtedy, gdy nigdy nie podejmiesz tego wyniku, kiedy go zobaczysz. To jest paradoks walidacji, ponieważ dlaczego mielibyśmy uzyskać wiedzę, która jest prawdziwa tylko wtedy, gdy nie działasz zgodnie z nią. W praktyce społeczność chętnie akceptuje pewne uprzedzenia dotyczące publikacji, w przypadku których badacze, którzy otrzymali losową nadmiernie optymistyczną walidację, są bardziej skłonni do opublikowania, niż ci, którzy niefortunnie dobrze oceniają zbyt pesymistycznie. Dlatego czasami dlaczego nie można odtworzyć innych modeli.