Rola parametru n.minobsinnode w GBM w R [zamknięte]

21

Chciałem wiedzieć, co oznacza parametr n.minobsinnode w pakiecie GBM. Przeczytałem instrukcję, ale nie jest jasne, co robi. Czy liczba ta powinna być mała czy duża, aby poprawić wyniki?

Benoit_Plante
źródło
9
„Jest mało prawdopodobne, aby to pytanie pomogło przyszłym użytkownikom”. Jestem przyszłym gościem i uznałem to za pomocne.
Flądrowiec
1
Uznałem to również za pomocne.
oaxacamatt

Odpowiedzi:

25

Na każdym etapie algorytmu GBM budowane jest nowe drzewo decyzyjne. Pytanie, kiedy rośnie drzewo decyzyjne, brzmi „kiedy przestać?”. Najdalej możesz przejść do podziału każdego węzła, aż będzie tylko jedna obserwacja w każdym węźle końcowym. Odpowiadałoby to n.minobsinnode = 1. Alternatywnie, podział węzłów może zostać przerwany, gdy w każdym węźle znajduje się pewna liczba obserwacji. Domyślna wartość pakietu R GBM to 10.

Jakiej wartości najlepiej użyć? To zależy od zestawu danych i tego, czy przeprowadzasz klasyfikację, czy regresję. Ponieważ przewidywanie każdego drzewa jest traktowane jako średnia zmiennej zależnej wszystkich danych wejściowych w węźle końcowym, wartość 1 prawdopodobnie nie będzie działać tak dobrze w przypadku regresji (!), Ale może być odpowiednia do klasyfikacji.

Wyższe wartości oznaczają mniejsze drzewa, dzięki czemu algorytm działa szybciej i zużywa mniej pamięci, co może być brane pod uwagę.

Zasadniczo wyniki nie są bardzo wrażliwe na ten parametr, a biorąc pod uwagę stochastyczny charakter wydajności GBM, określenie dokładnej wartości „najlepszej” może być trudne. Głębokość interakcji, skurcz i liczba drzew będą ogólnie znacznie bardziej znaczące.

Bogdanovist
źródło