Rola parametru n.minobsinnode w GBM w R [zamknięte]
21
Chciałem wiedzieć, co oznacza parametr n.minobsinnode w pakiecie GBM. Przeczytałem instrukcję, ale nie jest jasne, co robi. Czy liczba ta powinna być mała czy duża, aby poprawić wyniki?
„Jest mało prawdopodobne, aby to pytanie pomogło przyszłym użytkownikom”. Jestem przyszłym gościem i uznałem to za pomocne.
Flądrowiec
1
Uznałem to również za pomocne.
oaxacamatt
Odpowiedzi:
25
Na każdym etapie algorytmu GBM budowane jest nowe drzewo decyzyjne. Pytanie, kiedy rośnie drzewo decyzyjne, brzmi „kiedy przestać?”. Najdalej możesz przejść do podziału każdego węzła, aż będzie tylko jedna obserwacja w każdym węźle końcowym. Odpowiadałoby to n.minobsinnode = 1. Alternatywnie, podział węzłów może zostać przerwany, gdy w każdym węźle znajduje się pewna liczba obserwacji. Domyślna wartość pakietu R GBM to 10.
Jakiej wartości najlepiej użyć? To zależy od zestawu danych i tego, czy przeprowadzasz klasyfikację, czy regresję. Ponieważ przewidywanie każdego drzewa jest traktowane jako średnia zmiennej zależnej wszystkich danych wejściowych w węźle końcowym, wartość 1 prawdopodobnie nie będzie działać tak dobrze w przypadku regresji (!), Ale może być odpowiednia do klasyfikacji.
Wyższe wartości oznaczają mniejsze drzewa, dzięki czemu algorytm działa szybciej i zużywa mniej pamięci, co może być brane pod uwagę.
Zasadniczo wyniki nie są bardzo wrażliwe na ten parametr, a biorąc pod uwagę stochastyczny charakter wydajności GBM, określenie dokładnej wartości „najlepszej” może być trudne. Głębokość interakcji, skurcz i liczba drzew będą ogólnie znacznie bardziej znaczące.
Odpowiedzi:
Na każdym etapie algorytmu GBM budowane jest nowe drzewo decyzyjne. Pytanie, kiedy rośnie drzewo decyzyjne, brzmi „kiedy przestać?”. Najdalej możesz przejść do podziału każdego węzła, aż będzie tylko jedna obserwacja w każdym węźle końcowym. Odpowiadałoby to n.minobsinnode = 1. Alternatywnie, podział węzłów może zostać przerwany, gdy w każdym węźle znajduje się pewna liczba obserwacji. Domyślna wartość pakietu R GBM to 10.
Jakiej wartości najlepiej użyć? To zależy od zestawu danych i tego, czy przeprowadzasz klasyfikację, czy regresję. Ponieważ przewidywanie każdego drzewa jest traktowane jako średnia zmiennej zależnej wszystkich danych wejściowych w węźle końcowym, wartość 1 prawdopodobnie nie będzie działać tak dobrze w przypadku regresji (!), Ale może być odpowiednia do klasyfikacji.
Wyższe wartości oznaczają mniejsze drzewa, dzięki czemu algorytm działa szybciej i zużywa mniej pamięci, co może być brane pod uwagę.
Zasadniczo wyniki nie są bardzo wrażliwe na ten parametr, a biorąc pod uwagę stochastyczny charakter wydajności GBM, określenie dokładnej wartości „najlepszej” może być trudne. Głębokość interakcji, skurcz i liczba drzew będą ogólnie znacznie bardziej znaczące.
źródło