Właśnie ukończyłem uczenie maszynowe dla kursu R na cognitiveclass.ai i zacząłem eksperymentować z losowymi lasami.
Stworzyłem model, używając biblioteki „randomForest” w R. Model klasyfikuje według dwóch klas: dobrej i złej.
Wiem, że gdy model jest przeładowany, działa dobrze na danych z własnego zestawu treningowego, ale źle na danych poza próbą.
Aby wytrenować i przetestować mój model, przetasowałem i podzieliłem cały zestaw danych na 70% na szkolenie i 30% na testy.
Moje pytanie: otrzymuję 100% dokładności na podstawie prognozy wykonanej na zestawie testowym. Czy to źle? Wydaje się zbyt piękne, aby mogło być prawdziwe.
Celem jest rozpoznawanie przebiegów na czterech na siebie w zależności od przebiegów. Cechy zestawu danych to wyniki kosztów analizy dynamicznego dopasowania czasowego kształtów fal z ich kształtem docelowym.
źródło
Odpowiedzi:
Wysokie wyniki walidacji, takie jak dokładność, ogólnie oznaczają, że nie jesteś nadmiernie dopasowany, jednak powinno to prowadzić do ostrożności i może wskazywać, że coś poszło nie tak. Może to również oznaczać, że problem nie jest zbyt trudny i że Twój model naprawdę działa dobrze. Dwie rzeczy, które mogą pójść nie tak:
źródło
Sprawdź, jakie są najbardziej przewidujące funkcje. Czasami wśród funkcji przypadkowo umieściłeś swój cel (lub coś, co jest równoważne z celem).
źródło