Powiedzmy, że mam prosty problem z uczeniem maszynowym, taki jak klasyfikacja. Z pewnymi punktami odniesienia w rozpoznawaniu obrazu lub dźwięku, jako człowiek jestem bardzo dobrym klasyfikatorem. Mam zatem intuicję, jak dobry może być klasyfikator.
Ale przy dużej ilości danych jednym punktem jest to, że nie wiem, jak dobry jest klasyfikator, który trenuję. Są to dane, w których osobiście nie jestem bardzo dobrym klasyfikatorem (powiedzmy, klasyfikuj nastrój osoby na podstawie danych EEG). Naprawdę nie można zrozumieć, jak trudny jest mój problem.
Teraz, jeśli mam problem z uczeniem maszynowym, chciałbym dowiedzieć się, jak dobrze mogę sobie z tym poradzić. Czy istnieją jakieś zasadnicze podejścia do tego? Jak byś to zrobił?
Wizualizować dane? Zacznij od prostych modeli? Zacznij od bardzo skomplikowanych modeli i sprawdź, czy mogę się dopasować? Czego szukasz, jeśli chcesz odpowiedzieć na to pytanie? Kiedy przestajesz próbować?
źródło
Jeśli istnieje sposób na wizualizację danych, jest to najlepszy możliwy scenariusz, jednak nie wszystkie dane można wizualizować w ten sam sposób, więc może być konieczne znalezienie własnego sposobu na wyświetlenie danych, które mogą pomóc w zrozumieniu danych lepszy.
Jednak zazwyczaj pobieram małą próbkę danych, przekształcam je w ARFF i wypróbowuję inne algorytmy klastrowania od WEKA. Następnie widzę, który algorytm daje mi lepszą macierz dezorientacji. Daje mi podpowiedź, jak dobrze klasy są rozdzielone, i pozwala mi zbadać, dlaczego ten konkretny algorytm radzi sobie lepiej z tymi danymi. Zmieniam też liczbę klastrów (tzn. Nie używam tylko k = 2, używam k = 3, 4 itd.). Daje mi to pojęcie, czy w danych występuje fragmentacja, czy też jedna klasa jest bardziej fragmentaryczna niż druga. Łącząc punkty szkolenia i testowania w celu tworzenia klastrów, można również zmierzyć, które klastry są reprezentowane przez punkty treningu. Niektóre klastry mogą być nadreprezentowane, a niektóre niedostatecznie reprezentowane, oba mogą powodować problemy w nauce klasyfikatora.
Zawsze sprawdzaj dokładność treningu. Jeśli dokładność treningu nie wygląda dobrze, źle sklasyfikowane punkty treningowe również stanowią dużą wskazówkę.
źródło