Od dłuższego czasu pracuję nad uczeniem maszynowym i bioinformatyką, a dziś rozmawiałem z kolegą na temat głównych ogólnych kwestii eksploracji danych.
Mój kolega (który jest ekspertem w dziedzinie uczenia maszynowego) powiedział, że jego zdaniem najważniejszym praktycznym aspektem uczenia maszynowego jest, jak zrozumieć, czy zebrałeś wystarczającą ilość danych, aby wyszkolić swój model uczenia maszynowego .
To stwierdzenie mnie zaskoczyło, ponieważ nigdy nie przywiązywałem tak dużej wagi do tego aspektu ...
Potem szukałem więcej informacji w Internecie i znalazłem ten post na FastML.com zgłaszając jako ogólną zasadę, że potrzebujesz około 10 razy więcej instancji danych niż jest dostępnych funkcji .
Dwa pytania:
1 - Czy ten problem jest szczególnie istotny w uczeniu maszynowym?
2 - Czy reguła 10 razy działa? Czy istnieją inne odpowiednie źródła dla tego tematu?
źródło
Odpowiedzi:
Reguła dziesięciokrotności wydaje mi się ogólną zasadą, ale prawdą jest, że wydajność algorytmu uczenia maszynowego może się zmniejszyć, jeśli nie dostarczysz jej wystarczającej ilości danych treningowych.
Praktycznym i opartym na danych sposobem ustalenia, czy masz wystarczającą ilość danych treningowych, jest wykreślenie krzywej uczenia się, takiej jak w poniższym przykładzie:
Krzywa uczenia się przedstawia ewolucję błędów treningu i błędów testowych wraz ze wzrostem wielkości zestawu treningowego.
Jak widać po prawej stronie wykresu, dwie linie wykresu mają tendencję do sięgania i asymptoty. Dlatego ostatecznie osiągniesz punkt, w którym zwiększenie rozmiaru zestawu danych nie będzie miało wpływu na wytrenowany model.
Odległość między błędem testu a asymptotami błędu treningu jest odzwierciedleniem nadmiernego dopasowania modelu. Ale co ważniejsze, ta fabuła mówi, czy potrzebujesz więcej danych. Zasadniczo, jeśli reprezentujesz błąd testu i szkolenia dla zwiększenia większych podzbiorów danych treningu, a linie wydają się nie osiągać asymptoty, powinieneś nadal gromadzić więcej danych.
źródło
X_train, y_train: Only train subset
lubX, y: the entire dataset
źródło