Jak znaleźć optymalne wartości parametrów dostrajania w drzewach wzmacniających?

9

Zdaję sobie sprawę, że w modelu drzew przypominających są 3 parametry dostrajania, tj

  1. liczba drzew (liczba iteracji)
  2. parametr skurczu
  3. liczba podziałów (wielkość każdego drzewa składowego)

Moje pytanie brzmi: jak dla każdego parametru dostrajania znaleźć optymalną wartość? I jaką metodę?

Zauważ, że: parametr skurczu i parametr liczby drzew działają razem, tj. Mniejsza wartość parametru skurczu prowadzi do wyższej wartości dla liczby drzew. I musimy to również wziąć pod uwagę.

Szczególnie interesuje mnie metoda znalezienia optymalnej wartości dla liczby podziałów. Czy powinien opierać się na walidacji krzyżowej lub wiedzy o domenie dotyczącej modelu?

A jak te rzeczy są przeprowadzane w gbmpakiecie w R?

Nazywam się Jeff
źródło

Odpowiedzi:

6

Daszek pakiet w R jest szyte na miarę dla tego produktu.

Jego funkcja pociągu pobiera siatkę wartości parametrów i ocenia wydajność przy użyciu różnych odmian weryfikacji krzyżowej lub bootstrap. Autor pakietu napisał książkę, Zastosowane modelowanie predykcyjne , które jest wysoce zalecane. W całej książce zastosowano 5 powtórzeń 10-krotnej walidacji krzyżowej.

Przy wyborze głębokości drzewa najpierw wybrałbym wiedzę merytoryczną dotyczącą problemu, tj. Jeśli nie oczekujesz żadnych interakcji - ogranicz głębokość do 1 lub wybierz elastyczny model parametryczny (który jest znacznie łatwiejszy do zrozumienia i interpretacji). To powiedziawszy, często dostrajam głębokość drzewa, ponieważ wiedza merytoryczna jest często bardzo ograniczona.

Myślę, że pakiet gbm dostraja liczbę drzew dla ustalonych wartości głębokości i kurczenia się drzewa.

ErikL
źródło
Czy książka zawiera również kod R?
user1769197
Mam na myśli działający przykład, który zawiera kod R, więc rozumiemy, w jaki sposób modele są implementowane obliczeniowo i stosowane w zbiorze danych
użytkownik1769197
1
Tak. Aby uzyskać więcej informacji, odwiedź stronę internetową zastosowanopredictivemodeling.com .
ErikL
1

Istnieją dwa dobre źródła dla ulepszonych drzew regresji i pakietu GBM. Aby uzyskać wyjaśnienie BRT i optymalizację liczby drzew ( nt), wskaźnika uczenia się ( lr) i złożoności drzew ( tc), zobacz Poradnik dotyczący zwiększonych drzew regresji Chociaż koncentruje się na ekologii Myślę, że nie znajdziesz lepszego wstępu do BRT .

Aby zapoznać się z implementacją BRT w pakiecie gbm, zobacz Wzmocnione drzewa regresji dla modelowania ekologicznego

Krótko mówiąc, ogólną zasadą jest wybranie szybkości uczenia się, która pozwala modelowi BRT zmieścić co najmniej 1000 drzew, więc prawdopodobnie będziesz potrzebować niskiej szybkości uczenia się, może 0,001, aby to osiągnąć. Ale to zależy od wielkości twoich danych, patrz rys. 2 i 3 w Przewodniku roboczym do BRT. Myślę, że jednym z możliwych sposobów byłoby skonfigurowanie różnych modeli w BRT zgodnie z twoim rozmiarem danych, na przykład połączenie różnych lr (0,1, 0,01, 0,001), tc (1, 3, 5, 7, 9, 20) z inną torbą .frakcje (0,5, 0,7, 0,9) i wybierz najlepszy według najniższego odchylenia lub najwyższego wyniku ROC. Może to pomogło.

użytkownik3624251
źródło
1
Dla porównania, BRT_MODEL$self.statistics$correlation[[1]]jest to korelacja testowania z danymi treningowymi, co jest dobrym miernikiem testowym.
dez93_2000,
brzmi dla mnie jak statystyczny projekt eksperymentu. : P
EngrStudent