Czytając doskonałe modelowanie statystyczne: Dwie kultury (Breiman 2001) , możemy uchwycić całą różnicę między tradycyjnymi modelami statystycznymi (np. Regresja liniowa) a algorytmami uczenia maszynowego (np. Bagging, Random Forest, Boosted trees ...).
Breiman krytykuje modele danych (parametryczne), ponieważ opierają się one na założeniu, że obserwacje są generowane przez znany, formalny model zalecany przez statystykę, który może źle naśladować Naturę. Z drugiej strony algorytmy ML nie zakładają żadnego formalnego modelu i bezpośrednio uczą się związków między zmiennymi wejściowymi i wyjściowymi z danych.
Uświadomiłem sobie, że Bagging / RF i Boosting są również w pewnym stopniu parametryczne: na przykład ntree , mtry w RF, szybkość uczenia się , frakcja torby , złożoność drzew w drzewach Stochastic Gradient Boosted są parametrami dostrajania . Szacujemy również te parametry na podstawie danych, ponieważ używamy danych do znalezienia optymalnych wartości tych parametrów.
Jaka jest różnica? Czy modele parametryczne RF i Boosted Tree?
Myślę, że kryterium parametrycznym i nieparametrycznym jest następujące: czy liczba parametrów rośnie wraz z liczbą próbek treningowych. W przypadku regresji logistycznej i svm po wybraniu funkcji nie uzyskasz więcej parametrów poprzez dodanie większej liczby danych treningowych. Ale w przypadku RF itd. Szczegóły modelu zmienią się (podobnie jak głębokość drzewa), nawet jeśli liczba drzew się nie zmieni.
źródło
tree.complexity
parametr, po prostu zmieniasz jego wartość. Również w RF i zwiększaniu liczby drzew w lesie / sekwencji zmienia się w zależności od wielkości próbkiW sensie statystycznym model jest parametryczny, jeśli parametry są uczone lub wywnioskowane na podstawie danych. Drzewo w tym sensie jest nieparametryczne. Oczywiście głębokość drzewa jest parametrem algorytmu, ale nie jest z natury pochodna danych, ale raczej parametr wejściowy, który musi podać użytkownik.
źródło