Jaki jest najlepszy gotowy do użycia klasyfikator 2 klas? Tak, myślę, że to pytanie za milion dolarów i tak, jestem świadomy twierdzenia o braku darmowego lunchu , a także przeczytałem poprzednie pytania:
- Jaki jest najlepszy gotowy do użycia 2-klasowy klasyfikator dla Twojej aplikacji?
- i najgorszy klasyfikator
Nadal jestem zainteresowany czytaniem więcej na ten temat.
Jakie jest dobre źródło informacji, które obejmuje ogólne porównanie cech, zalet i cech różnych klasyfikatorów?
Odpowiedzi:
ESL , jak już wspomniano przez Petera Flom, to doskonała propozycja (uwaga, że mój link jest na stronie autora, gdzie książki można otrzymać jako pdf za darmo). Pozwól mi dodać kilka bardziej szczegółowych rzeczy, których należy szukać w książce:
Dodaj do książki widok zadań uczenia maszynowego dla języka R, który daje pewne wyobrażenie o tym, co może faktycznie zrobić wiele pakietów uczenia maszynowego, chociaż nie ma prawdziwego porównania. Dla użytkowników Pythona wyobrażam sobie, że scikit.learn to dobre miejsce do patrzenia. To, jak bardzo „gotowa” lub „gotowa” jest metoda, jest w dużej mierze determinowane przez to, jak dobrze implementacja radzi sobie z automatycznym dostosowaniem do sytuacji w danych, a nie pozostawia szczegółowego strojenia użytkownikowi. Moim zdaniem mgcv dla R jest dobrym przykładem, który sprawia, że dopasowanie dość dobrego uogólnionego modelu dodatku jest naprawdę łatwe i zasadniczo bez potrzeby „ręcznego dostrajania” czegokolwiek.
źródło
Zasoby wymienione przez innych są z pewnością przydatne, ale wkroczę i dodam następujące: „najlepszy” klasyfikator prawdopodobnie będzie zależał od kontekstu i danych. Podczas niedawnej próby oceny różnych klasyfikatorów binarnych odkryłem, że drzewo regresji wzmocnionej działa konsekwentnie lepiej niż inne metody, do których miałem dostęp. Najważniejsze było dla mnie nauczenie się korzystania z narzędzi do eksploracji danych Orange . Mają jakiś wielki dokumentację , aby zacząć na odkrywanie tych metod ze swoimi danymi. Na przykład, oto krótki skrypt w języku Python, który napisałem, aby ocenić jakość wielu klasyfikatorów w różnych miarach dokładności przy użyciu k-krotnej weryfikacji krzyżowej.
Kiedy uruchamiam ten kod na moich danych, otrzymuję dane wyjściowe jak
Z obiektami Orange można zrobić o wiele więcej, aby introspekcjonować wydajność i dokonywać porównań. Uznałem, że ten pakiet jest niezwykle pomocny w pisaniu niewielkiej ilości kodu, aby faktycznie zastosować metody do moich danych przy użyciu spójnego interfejsu API i abstrakcji problemów (tj. Nie musiałem używać sześciu różnych pakietów od sześciu różnych autorów, każdy z własnym podejście do projektowania API i dokumentacji itp.).
źródło
Książka The Elements of Statistics Learning zawiera wiele informacji na ten temat.
źródło
Inne zasoby, które znalazłem na ten temat (dostępny darmowy plik PDF):
źródło
Według tego wyczerpującego ostatniego badania (ocena 179 klasyfikatorów na 121 zestawach danych), najlepszymi klasyfikatorami są losowe lasy, a następnie maszyny wektorów wsparcia.
źródło