Czy modelowanie za pomocą losowych lasów wymaga krzyżowej weryfikacji?

10

O ile widziałem, opinie na ten temat różnią się. Najlepsza praktyka z pewnością podyktowałaby zastosowanie weryfikacji krzyżowej (szczególnie przy porównywaniu RF z innymi algorytmami w tym samym zbiorze danych). Z drugiej strony oryginalne źródło stwierdza, że ​​fakt błędu OOB obliczanego podczas szkolenia modelu jest wystarczającym wskaźnikiem wydajności zestawu testowego. Nawet Trevor Hastie w stosunkowo niedawnych rozmowach mówi, że „Losowe lasy zapewniają bezpłatną weryfikację krzyżową”. Intuicyjnie ma to dla mnie sens, jeśli trenuję i próbuję ulepszyć model oparty na RF na jednym zbiorze danych.

Jakie jest twoje zdanie na ten temat?

neuron
źródło
3
nie odnosi się to do głównego punktu pytania - ale prawdopodobnie nadal chcesz krzyżowo zweryfikować parametry drugorzędne (takie jak głębokość drzew itp.)
Wouter
Możesz użyć RF lub porównać go z innymi podejściami pod względem wydajności w zestawie treningowym lub użyć niezależnego / podzbioru danych do przetestowania wydajności. Jest to kwestia twojej hipotezy: czy próbujesz uogólnić wyniki na większą populację, czy po prostu klasyfikować dostępne dane, a nie właściwość RF.
katya

Odpowiedzi:

3

1-(1-1N.)N.1-mi-10,6

Jak wskazuje @Wouter, prawdopodobnie będziesz chciał przeprowadzić walidację krzyżową w celu dostrajania parametrów, ale jako oszacowanie błędu zestawu testowego błąd OOB powinien być w porządku.

einar
źródło