Jakie są podobieństwa i różnice między tymi 3 metodami: Parcianka, Wzmocnienie, Układanie? Który jest najlepszy? I dlaczego? Czy możesz podać mi przykład dla każdego z
Rodzina algorytmów łączących słabo predykcyjne modele w silnie predykcyjny model. Najpopularniejsze podejście nazywa się zwiększaniem gradientu, a najczęściej stosowanymi słabymi modelami są drzewa klasyfikacji / regresji.
Jakie są podobieństwa i różnice między tymi 3 metodami: Parcianka, Wzmocnienie, Układanie? Który jest najlepszy? I dlaczego? Czy możesz podać mi przykład dla każdego z
Zwiększanie drzewa gradientowego, jak zaproponował Friedman, wykorzystuje drzewa decyzyjne jako podstawowych uczniów. Zastanawiam się, czy powinniśmy uczynić podstawowe drzewo decyzyjne tak złożonym, jak to możliwe (w pełni rozwinięte) czy prostszym? Czy istnieje jakieś wyjaśnienie wyboru? Random...
Mam dane niezrównoważone w klasie i chcę dostroić hiperparametry wzmocnionego warkocza za pomocą xgboost. pytania Czy istnieje odpowiednik gridsearchcv lub randomsearchcv dla xgboost? Jeśli nie, jakie jest zalecane podejście do dostrojenia parametrów
Krótka definicja wzmocnienia : Czy zestaw słabych uczniów może stworzyć jednego silnego ucznia? Słaby uczeń jest zdefiniowany jako klasyfikator, który jest tylko nieznacznie skorelowany z prawdziwą klasyfikacją (może lepiej opisywać przykłady niż losowe zgadywanie). Krótka definicja lasu...
Próbuję zrozumieć różnice między GBM a Adaboost. Oto, co do tej pory zrozumiałem: Istnieją oba algorytmy przyspieszające, które uczą się na błędach poprzedniego modelu i wreszcie tworzą ważoną sumę modeli. GBM i Adaboost są dość podobne, z wyjątkiem funkcji utraty. Ale nadal trudno mi...
Ucząc się o zwiększaniu gradientu, nie słyszałem o żadnych ograniczeniach dotyczących właściwości „słabego klasyfikatora”, którego ta metoda używa do budowania i składania modelu. Jednak nie wyobrażam sobie zastosowania GB, który wykorzystuje regresję liniową, a właściwie po przeprowadzeniu...
Istnieje kilka implementacji rodziny modeli GBDT, takich jak: GBM XGBoost LightGBM Catboost. Jakie są matematyczne różnice między tymi różnymi implementacjami? Catboost wydaje się przewyższać inne implementacje, nawet używając tylko domyślnych parametrów zgodnie z tym testem , ale wciąż jest...
Od dłuższego czasu obserwuję zawody Kaggle i zdaję sobie sprawę, że wiele zwycięskich strategii wymaga użycia co najmniej jednego z „wielkich trójek”: workowania, wzmacniania i układania. W przypadku regresji zamiast koncentrowania się na budowaniu jednego najlepszego możliwego modelu regresji,...
Szukam wyjaśnienia, w jaki sposób względna ważność zmiennych jest obliczana w drzewach wspomaganych gradientem, które nie jest zbyt ogólne / uproszczone, takie jak: Miary są oparte na liczbie wyborów zmiennej do podziału, ważone przez podniesienie kwadratu do modelu w wyniku każdego podziału i...
Jakie są przydatne wskazówki dotyczące testowania parametrów (tj. Głębokość interakcji, dziecko, częstotliwość próbkowania itp.) Za pomocą GBM? Powiedzmy, że mam 70-100 funkcji, populację 200 000 i zamierzam przetestować głębokość interakcji 3 i 4. Oczywiście muszę przeprowadzić testy, aby...
Miałem pytanie dotyczące parametru głębokości interakcji w gbm w R. To może być pytanie nooba, za które przepraszam, ale w jaki sposób parametr, który moim zdaniem oznacza liczbę węzłów końcowych w drzewie, zasadniczo wskazuje X-way interakcja między predyktorami? Próbuję zrozumieć, jak to działa....
Zobacz także podobne pytanie na temat statystyki . SE . W zwiększeniu algorytmy, takie jak adaboost i LPBoost wiadomo, że „słabe” uczestników być łączone tylko lepsze wyniki niż przypadek użyteczne z Wikipedia: Stosowane przez niego klasyfikatory mogą być słabe (tj. Wykazywać znaczny poziom...
Na przykład, ma funkcję celu modelu XGBoost w sprawie ttt „tą iterację procedury: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) gdzie ℓℓ\ell jest utrata funkcji, ftftf_t jest ttt...
Jaki jest najłatwiejszy sposób na zrozumienie wzmocnienia? Dlaczego nie podnosi bardzo słabych klasyfikatorów „do nieskończoności”
Mam kilka ściśle powiązanych pytań dotyczących słabych uczniów uczących się w zespole (np. Przyspieszenie). Może to zabrzmieć głupio, ale jakie są zalety korzystania ze słabych w porównaniu z silnymi uczniami? (np. dlaczego nie wzmocnić za pomocą „silnych” metod uczenia się?) Czy istnieje jakaś...
Niedawno pracowałem nad uczeniem się algorytmów wzmacniających, takich jak adaboost, zwiększanie gradientu i wiedziałem, że najczęściej używanym słabym uczniem są drzewa. Naprawdę chcę wiedzieć, czy istnieją pewne udane przykłady (mam na myśli kilka artykułów lub artykułów) wykorzystania sieci...
Czytałem raport o zwycięskim rozwiązaniu konkursu Kaggle ( klasyfikacja złośliwego oprogramowania ). Raport można znaleźć w tym poście na forum . Problemem był problem z klasyfikacją (dziewięć klas, metryką była strata logarytmiczna) ze 10000 elementami w zestawie pociągów, 10000 elementów w...
Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy...
Czytałem różne (pozornie) sprzeczne stwierdzenia, czy AdaBoost (lub inne techniki wspomagające) są mniej lub bardziej podatne na nadmierne dopasowanie w porównaniu do innych metod uczenia się. Czy istnieją dobre powody, by wierzyć w to jedno lub drugie? Jeśli to zależy, od czego to zależy? Jakie...
Próbuję zrozumieć, jak działa XGBoost. Już rozumiem, w jaki sposób drzewa wzmocnione gradientem działają na sklearn Pythona. Nie jest dla mnie jasne, czy XGBoost działa w ten sam sposób, ale szybciej, czy istnieją fundamentalne różnice między nim a implementacją Pythona. Kiedy czytam ten...