Czy losowy las i wzmocnienie jest parametryczny czy nieparametryczny?

13

Czytając doskonałe modelowanie statystyczne: Dwie kultury (Breiman 2001) , możemy uchwycić całą różnicę między tradycyjnymi modelami statystycznymi (np. Regresja liniowa) a algorytmami uczenia maszynowego (np. Bagging, Random Forest, Boosted trees ...).

Breiman krytykuje modele danych (parametryczne), ponieważ opierają się one na założeniu, że obserwacje są generowane przez znany, formalny model zalecany przez statystykę, który może źle naśladować Naturę. Z drugiej strony algorytmy ML nie zakładają żadnego formalnego modelu i bezpośrednio uczą się związków między zmiennymi wejściowymi i wyjściowymi z danych.

Uświadomiłem sobie, że Bagging / RF i Boosting są również w pewnym stopniu parametryczne: na przykład ntree , mtry w RF, szybkość uczenia się , frakcja torby , złożoność drzew w drzewach Stochastic Gradient Boosted są parametrami dostrajania . Szacujemy również te parametry na podstawie danych, ponieważ używamy danych do znalezienia optymalnych wartości tych parametrów.

Jaka jest różnica? Czy modele parametryczne RF i Boosted Tree?

Antoine
źródło

Odpowiedzi:

12

Modele parametryczne mają parametry (wnioskowanie) lub założenia dotyczące rozkładu danych, podczas gdy RF, sieci neuronowe lub drzewa wzmacniające mają parametry związane z samym algorytmem, ale nie potrzebują założeń dotyczących rozkładu danych ani nie klasyfikują danych w rozkład teoretyczny . W rzeczywistości prawie wszystkie algorytmy mają parametry takie jak iteracje lub wartości marginesów związane z optymalizacją.

D.Castro
źródło
5
Podsumowując: 1) parametry ML i modeli parametrycznych są dostrajane / szacowane w oparciu o dane, ALE 2) w ML, parametry kontrolują sposób, w jaki algorytmy uczą się na podstawie danych (nie przyjmując żadnych założeń dotyczących danych i poniżej generowanie danych), podczas gdy parametry modeli parametrycznych (modele przyjmowane z góry) kontrolują mechanizm, który, jak się zakłada, wytworzył dane (z wieloma nierealistycznymi założeniami, które rzadko mają zastosowanie w praktyce). Czy uważasz, że jest to odpowiednie podsumowanie? Czy mógłbyś coś dodać / zmienić?
Antoine,
4
Myślę, że zdanie z pracy Breimana, które podsumowuje wszystko, brzmi: „modelowanie algorytmiczne przenosi fokus z modeli danych na właściwości algorytmów”.
Antoine,
1
Możesz to tak podsumować, ale ... nie lekceważ modeli parametrycznych. Są sytuacje, w których są one konieczne i optymalne do rozwiązania wielu problemów. Również ich założenia nie są tak nierealne. Wiele rozkładów teoretycznych jest ważnych dla wyjaśnienia wielu rzeczy, od normalnego przez dwumianowy do logarytmicznego, geometrycznego itp. Nie chodzi o jedno lub drugie, chodzi o wybór właściwego sposobu rozwiązania problemu.
D.Castro
4
Zgadzam się. Gdy podstawowy proces fizyczny jest dobrze znany, odpowiednie są modele parametryczne. Breiman krytykuje stosowanie modeli parametrycznych do odkrywania wiedzy i przewidywania, gdy podstawowe procesy są nieznane
Antoine
1

Myślę, że kryterium parametrycznym i nieparametrycznym jest następujące: czy liczba parametrów rośnie wraz z liczbą próbek treningowych. W przypadku regresji logistycznej i svm po wybraniu funkcji nie uzyskasz więcej parametrów poprzez dodanie większej liczby danych treningowych. Ale w przypadku RF itd. Szczegóły modelu zmienią się (podobnie jak głębokość drzewa), nawet jeśli liczba drzew się nie zmieni.

Yu Zhang
źródło
ale w RF lub Boostingu zwiększenie głębokości drzewa nie dodaje parametrów. Nadal masz tree.complexityparametr, po prostu zmieniasz jego wartość. Również w RF i zwiększaniu liczby drzew w lesie / sekwencji zmienia się w zależności od wielkości próbki
Antoine
w moich opcjach, gdy zmienia się głębokość drzewa, w drzewie jest więcej podziałów, więc masz więcej parametrów. Gdy liczba drzew zmienia się w RF i Boosting jako zmiana danych, ale nie stanie się tak, gdy model będzie modelem liniowym.
Yu Zhang
1

W sensie statystycznym model jest parametryczny, jeśli parametry są uczone lub wywnioskowane na podstawie danych. Drzewo w tym sensie jest nieparametryczne. Oczywiście głębokość drzewa jest parametrem algorytmu, ale nie jest z natury pochodna danych, ale raczej parametr wejściowy, który musi podać użytkownik.

PeterPancake
źródło
Powiedzmy, że musisz przedstawić OLS i modele oparte na drzewach przed nietechniczną publicznością. Czy możesz powiedzieć, że te pierwsze są parametryczne, a drugie nieparametryczne?
Tanguy