Jaki jest najlepszy gotowy do użycia 2-klasowy klasyfikator dla Twojej aplikacji? [Zamknięte]

15

Zasady:

  • jeden klasyfikator na odpowiedź
  • głosuj, jeśli się zgadzasz
  • przegłosuj / usuń duplikaty.
  • umieść swoją aplikację w komentarzu
Łukasz Lew
źródło

Odpowiedzi:

14

Losowy las

  • łatwo wychwytuje skomplikowaną relację struktura / nieliniowość
  • niezmienny w skali zmiennych
  • nie ma potrzeby tworzenia zmiennych zastępczych dla predyktorów jakościowych
  • wybór zmiennych nie jest zbyt potrzebny
  • stosunkowo trudny do przebrania
Łukasz Lew
źródło
Wybór aktywnego motywu Aptamer, prognozowanie wilgotności gruntu leśnego, cyfrowy OCR, wielospektralna analiza obrazu satelitarnego, wyszukiwanie informacji muzycznych, chemometria ...
13

Regresja logistyczna :

  • szybko i dobrze działa na większości zestawów danych
  • prawie żadnych parametrów do dostrojenia
  • obsługuje obie funkcje dyskretne / ciągłe
  • model jest łatwo interpretowalny
  • (tak naprawdę nie ogranicza się do klasyfikacji binarnych)
Amro
źródło
Może nie ma parametrów do dostrojenia, ale trzeba naprawdę pracować ze zmiennymi ciągłymi (transformacje, splajny itp.), Aby wywołać nieliniowość.
B_Miner
12

Maszyna wektorów nośnych

Łukasz Lew
źródło
Nie ma nic naprawdę wyjątkowego SVM, inne niż to zmusza użytkownika do myślenia o legalizacji. W przypadku większości problemów praktycznych [jądro] regresja kalenicy działa równie dobrze.
Dikran Torbacz
2
@dikran, myślę, że SVM jest świetnym klasyfikatorem, ponieważ jest rzadki i odporny na wartości odstające - nie dotyczy to regresji logistycznej! i dlatego SVM jest najnowocześniejszym klasyfikatorem. Jedynym problemem, który może być problemem, jest złożoność czasu - ale myślę, że jest w porządku.
suncoolsu
@ suncoolsu Jeśli chcesz rzadkości, otrzymujesz więcej rzadkości dzięki regularnej regresji logistycznej w LASSO niż w SVM. Rzadkość SVM jest produktem ubocznym funkcji utraty, więc nie dostajesz tyle, ile robisz z algorytmem, w którym rzadkość jest celem projektowym. Często także przy optymalnej wartości hiperparametru (np. Wybranej poprzez walidację krzyżową) większość rzadkości SVM znika. SVM nie jest bardziej odporny na wartości odstające niż regularna regresja logistyczna - ważna jest głównie regularyzacja, a nie utrata zawiasów.
Dikran Torbacz
@Dikran - dokładnie o to mi chodzi - ważna jest jakaś kara. Możesz to uzyskać za pomocą Priorów, dodając karę itp.
suncoolsu
1
@ suncoolsu W takim przypadku SVM nie jest świetnym klasyfikatorem, jest tylko jednym z wielu znormalizowanych klasyfikatorów, takich jak regresja kalenicowa, regaryzowana regresja logistyczna, procesy gaussowskie. Główną zaletą SVM jest jego odwołanie do obliczeniowej teorii uczenia się. W praktyce ważniejsze są inne względy, takie jak to, czy potrzebujesz klasyfikatora probabilistycznego, w którym inne funkcje strat mogą być lepsze. IMHO, zbyt wiele uwagi poświęca się SVM, a nie szerszej rodzinie metod jądra.
Dikran Torbacz
7

Regularny dyskryminator dla nadzorowanych problemów z zaszumionymi danymi

  1. Wydajny obliczeniowo
  2. Odporny na szumy i wartości odstające w danych
  3. Zarówno klasyfikatory dyskryminacji liniowej (LD), jak i kwadratycznej dyskryminacji (QD) można uzyskać z tej samej implementacji, ustawiając parametry regularyzacji „[lambda, r]” na „[1 0]” dla klasyfikatora LD i „[0 0]” dla Klasyfikator QD - bardzo przydatny do celów odniesienia.
  4. Model jest łatwy do interpretacji i eksportu
  5. Działa dobrze w przypadku rzadkich i „szerokich” zestawów danych, w których macierze kowariancji klas mogą nie być dobrze zdefiniowane.
  6. Oszacowanie prawdopodobieństwa klasy tylnej można oszacować dla każdej próbki, stosując funkcję softmax do wartości dyskryminacyjnych dla każdej klasy.

Link do oryginalnej pracy z 1989 roku autorstwa Friedmana i in . Tutaj . Również bardzo dobre wyjaśnienie Kunchevy w jej książce „ Łączenie klasyfikatorów wzorców ”.

BGreene
źródło
5

Drzewa wzmocnione gradientem.

  • Przynajmniej tak dokładne, jak RF w wielu aplikacjach
  • Bezproblemowo włącza brakujące wartości
  • Znaczenie różnych (jak RF prawdopodobnie tendencyjne na korzyść ciągłego i wielu poziomów nominalnych)
  • Wykresy częściowej zależności
  • GBM kontra randomForest in R: obsługuje DUŻO większe zestawy danych
B_Miner
źródło
4

Klasyfikator procesu Gaussa - daje prognozy probabilistyczne (przydatne, gdy częstotliwości operacyjne względnych klas różnią się od tych w zestawie treningowym lub równoważne są fałszywie dodatnie / fałszywie ujemne koszty są nieznane lub zmienne). Zapewnia on również zniesienie niepewności w prognozach modelu z powodu niepewności w „szacowaniu modelu” na podstawie skończonego zestawu danych. Funkcja współwariancji jest równoważna funkcji jądra w SVM, więc może również działać bezpośrednio na danych niewektorowych (np. Łańcuchy lub wykresy itp.). Matematyczne ramy są również czyste (ale nie używaj aproksymacji Laplace'a). Zautomatyzowany wybór modelu poprzez maksymalizację marginalnego prawdopodobieństwa.

Zasadniczo łączy dobre cechy regresji logistycznej i SVM.

Dikran Torbacz
źródło
Czy istnieje zalecany pakiet R, który to implementuje? Jaka jest twoja preferowana implementacja dla tej metody? Dzięki!
lipiec
Obawiam się, że jestem użytkownik MATLAB (używam pakietu GPML gaussianprocess.org/gpml/code/matlab/doc ), więc nie mogę doradzić o wdrożeniach R, ale może znajdziesz tu coś odpowiedniego gaussianprocess.org/# kod . Jeśli R nie ma przyzwoitej paczki dla lekarzy ogólnych, ktoś musi ją napisać!
Dikran Marsupial
Ok dzięki. Czyni to methodolgy pozwalają, aby wybrać „ważnych zmiennych, takich jak w zmiennej znaczenia lasy losowe lub eliminacji rekurencyjnej funkcji z SVMs?
julieth
Tak, możesz użyć funkcji kowariancji „automatycznego określania istotności” i wybrać hiper-parametry, maksymalizując dowody bayesowskie dla modelu (chociaż może to prowadzić do tego samego rodzaju nadmiernie dopasowanych problemów, jakie występują w SVMS, więc często model działa lepiej bez wyboru funkcji).
Dikran Marsupial
4

Regresja logistyczna regulowana przez L1.

  • Jest szybki obliczeniowo.
  • Ma intuicyjną interpretację.
  • Ma tylko jeden łatwo zrozumiały hiperparametr, który można automatycznie dostrajać poprzez weryfikację krzyżową, co często jest dobrym rozwiązaniem.
  • Jego współczynniki są częściowo liniowe, a ich związek z hiperparametrem jest natychmiast i łatwo widoczny na prostym wykresie.
  • Jest to jedna z mniej wątpliwych metod selekcji zmiennych.
  • Ma też naprawdę fajną nazwę.
miura
źródło
+1 Hiperparametr można również zintegrować analitycznie, więc nie ma potrzeby rzeczywistej weryfikacji krzyżowej dla wielu aplikacji, patrz np. Theoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdf i bioinformatyka .oxfordjournals.org / content / 22/19 / 2348.full.pdf .
Dikran Marsupial
3

kNN

użytkownik88
źródło
3

Naive Bayes i Random Naive Bays

użytkownik88
źródło
2
Czy możesz podać opis problemu, w którym RNB dał ci dobre wyniki?
Łukasz Lew
Nie ;-) To było tylko w celu ożywienia puli.
1

K-oznacza grupowanie dla uczenia się bez nadzoru.

Berkay
źródło
Pytanie dotyczy konkretnie klasyfikatora.
Prometeusz