Uwaga: Z pewnością nie jest to pełna odpowiedź na pytanie!
Myślę, że należy rozważyć co najmniej dwa poziomy przed ustanowieniem rozróżnienia między wszystkimi takimi metodami:
- czy dopasowany jest pojedynczy model, czy nie: Pomaga to w przeciwstawnych metodach, takich jak regresja logistyczna vs. RF lub Wzmocnienie gradientu (lub bardziej ogólnie metody zestawowe ), a także kładzie nacisk na oszacowanie parametrów (z powiązanymi przedziałami ufności asymptotycznymi lub bootstrapowymi) w porównaniu z klasyfikacją lub obliczanie dokładności prognoz;
- czy wszystkie zmienne są brane pod uwagę, czy nie: Jest to podstawa wyboru cech, w tym sensie, że penalizacja lub regularyzacja pozwala poradzić sobie z „nieregularnymi” zestawami danych (np. dużym i / lub małym ) i poprawić uogólnienie wyników.pn
Oto kilka innych punktów, które moim zdaniem są istotne dla tego pytania.
Jeśli weźmiemy pod uwagę kilka modeli - ten sam model jest dopasowany do różnych podzbiorów (osób i / lub zmiennych) dostępnych danych lub różne modele konkurencyjne są dopasowane do tego samego zestawu danych - można zastosować walidację krzyżową , aby uniknąć nadmierne dopasowanie i dokonaj wyboru modelu lub funkcji, chociaż CV nie ogranicza się do tych konkretnych przypadków (może być na przykład używany z GAM lub karanymi GLM). Istnieje również tradycyjny problem interpretacji: bardziej złożone modele często implikują bardziej złożoną interpretację (więcej parametrów, bardziej rygorystyczne założenia itp.).
Zwiększanie gradientu i RF pokonują ograniczenia jednego drzewa decyzyjnego, dzięki Boostingowi, którego główną ideą jest połączenie wyników kilku słabych algorytmów uczenia się w celu zbudowania bardziej dokładnej i stabilnej reguły decyzyjnej oraz Bagging, w którym „uśredniamy” wyniki ponad ponownie próbkowane zestawy danych. Ogólnie rzecz biorąc, są one często postrzegane jako rodzaj czarnych skrzynek w porównaniu do bardziej „klasycznych” modeli, w których zapewniono jasne specyfikacje modelu (mogę myśleć o trzech klasach modeli: parametrycznym , półparametrycznym , nieparametrycznym ), ale Myślę, że dyskusja odbyła się pod innym wątkiem The Two Cultures: statystyka vs. uczenie maszynowe? zapewnić ciekawe punkty widzenia.
Oto kilka artykułów na temat wyboru funkcji i niektórych technik ML:
- Saeys, Y, Inza, I i Larrañaga, P. Przegląd technik selekcji cech w bioinformatyce , Bioinformatics (2007) 23 (19): 2507-2517.
- Dougherty, ER, Hua J i Sima, C. Wydajność metod wyboru cech , Current Genomics (2009) 10 (6): 365–374.
- Boulesteix, AL i Strobl, C. Optymalny wybór klasyfikatora i negatywne nastawienie w szacowaniu poziomu błędu: badanie empiryczne dotyczące prognozowania wielowymiarowego , BMC Medical Research Methodology (2009) 9:85.
- Caruana, R i Niculescu-Mizil, A. Empiryczne porównanie nadzorowanych algorytmów uczenia się . Materiały z 23. Międzynarodowej Konferencji na temat uczenia maszynowego (2006).
- Friedman, J, Hastie, T i Tibshirani, R. Addytywna regresja logistyczna: statystyczny pogląd na wzmocnienie , Ann. Statystyk. (2000) 28 (2): 337-407. (Z dyskusją)
- Olden, JD, Lawler, JJ i Poff, NL. Metody uczenia maszynowego bez łez: podkład dla ekologów , Q Rev Biol. (2008) 83 (2): 171–93.
I oczywiście elementy uczenia statystycznego autorstwa Hastie i wsp. Są pełne ilustracji i odniesień. Koniecznie sprawdź także samouczki dotyczące eksploracji danych statystycznych autorstwa Andrew Moore'a.