Mam losową regresję lasu zbudowaną przy użyciu skl i zauważam, że uzyskuję różne wyniki w oparciu o ustawienie losowych nasion na różne wartości.
Jeśli użyję LOOCV do ustalenia, które nasiona najlepiej działają, czy jest to poprawna metoda?
cross-validation
random-forest
użytkownik2723494
źródło
źródło
Odpowiedzi:
Odpowiedź brzmi nie .
Twój model daje inny wynik dla każdego użytego materiału siewnego. Jest to wynik niedeterministycznego charakteru modelu. Wybierając konkretne ziarno, które maksymalizuje wydajność zestawu sprawdzania poprawności, oznacza, że wybrałeś „układ”, który najlepiej pasuje do tego zestawu. Nie gwarantuje to jednak, że model z tym materiałem siewnym będzie działał lepiej na osobnym zestawie testowym . Oznacza to po prostu, że model został dopasowany do zestawu sprawdzania poprawności .
Ten efekt powoduje, że wiele osób, które zajmują wysokie miejsca w zawodach (np. Kaggle) na publicznym zestawie testowym, wypadają daleko z ukrytego zestawu testowego. Podejście to nie jest w żaden sposób uważane za prawidłowe.
źródło