Losowy las to zbiór drzew decyzyjnych według koncepcji workowania. Kiedy przechodzimy z jednego drzewa decyzyjnego do następnego drzewa decyzyjnego, w jaki sposób informacje zdobyte przez ostatnie drzewo decyzyjne przechodzą do następnego?
Ponieważ, zgodnie z moim zrozumieniem, nie ma nic takiego jak wyszkolony model, który jest tworzony dla każdego drzewa decyzyjnego, a następnie ładowany, zanim następne drzewo decyzyjne zacznie uczyć się na błędnie sklasyfikowanym błędzie.
Jak to działa?
machine-learning
random-forest
cart
bagging
Abhay Raj Singh
źródło
źródło
Odpowiedzi:
Żadne informacje nie są przekazywane między drzewami. W losowym lesie wszystkie drzewa są identycznie rozmieszczone, ponieważ drzewa są hodowane przy użyciu tej samej strategii losowania dla wszystkich drzew. Najpierw weź próbkę danych ładowania początkowego, a następnie wyhoduj drzewo za pomocą podziałów z losowo wybranego podzbioru funkcji. Dzieje się tak dla każdego drzewa indywidualnie, bez zwracania uwagi na inne drzewa w zespole. Drzewa są jednak skorelowane wyłącznie na podstawie tego, że każde drzewo jest trenowane na próbce ze wspólnej puli danych szkoleniowych; wiele próbek z tego samego zestawu danych będzie zwykle podobnych, więc drzewa zakodują część tego podobieństwa.
Pomocne może być przeczytanie wstępu do losowych lasów z wysokiej jakości tekstu. Jednym z nich są „Losowe lasy” Leo Breimana. Jest także rozdział w „ Elementy uczenia statystycznego” autorstwa Hastie i in.
Możliwe, że pomyliłeś losowe lasy z metodami doładowania, takimi jak AdaBoost lub drzewami o podwyższonym gradiencie. Metody wzmocnienia nie są takie same, ponieważ wykorzystują informacje o niewłaściwym dopasowaniu z poprzednich rund wzmocnienia, aby poinformować o następnej rundzie wzmocnienia. Zobacz: Czy losowy las jest algorytmem przyspieszającym?
źródło
Te lasy losowe jest zbiorem wielu drzew decyzyjnych, które są przeszkolone niezależnie od siebie . Zatem nie ma pojęcia sekwencyjnie zależnego treningu (co ma miejsce w przypadku algorytmów wzmacniających ). W wyniku tego, jak wspomniano w innej odpowiedzi, możliwe jest równoległe szkolenie drzew.
Być może chcesz wiedzieć, skąd pochodzi „losowy” losowy las: istnieją dwa sposoby wprowadzania losowości w proces uczenia się drzew. Pierwszy to losowy wybór punktów danych wykorzystywanych do treningu każdego z drzew, a drugi to losowy wybór funkcji wykorzystywanych przy budowie każdego drzewa. Ponieważ pojedyncze drzewo decyzyjne zwykle ma tendencję do nadmiernego nakładania się na dane, zastrzyk losowości w ten sposób powoduje powstanie wiązki drzew, w których każde z nich ma dobrą dokładność (i prawdopodobnie nadmierną) w innym podzbiorze dostępnych danych treningowych . Dlatego, gdy weźmiemy średnią prognoz dokonanych przez wszystkie drzewa, zaobserwowalibyśmy redukcję nadmiernego dopasowania (w porównaniu do przypadku szkolenia jednego drzewa decyzyjnego na wszystkich dostępnych danych ).
Jeśli jest używany do zadania regresji, weź średnią prognoz jako ostateczną prognozę losowego lasu.
Jeśli jest używany do zadania klasyfikacji, użyj strategii miękkiego głosowania : weź średnią prawdopodobieństw przewidywanych przez drzewa dla każdej klasy, a następnie zadeklaruj klasę o najwyższym średnim prawdopodobieństwie jako ostateczną prognozę losowego lasu.
Co więcej, warto wspomnieć, że można trenować drzewa w sekwencyjnie zależny sposób i dokładnie to robi algorytm drzew wzmocniony gradientem , co jest zupełnie inną metodą niż losowe lasy.
źródło
Losowy las jest raczej algorytmem workowania niż algorytmem boostingu.
Losowy las konstruuje drzewo niezależnie, wykorzystując losową próbkę danych. Możliwe jest równoległe wdrożenie.
Możesz sprawdzić zwiększanie gradientu tam, gdzie drzewa buduje się sekwencyjnie, gdy nowe drzewo próbuje naprawić wcześniej popełniony błąd.
źródło
Random Forest to zbiór drzew decyzyjnych. Drzewa są budowane niezależnie. Każde drzewo jest szkolone w zakresie podzbioru cech i podzbioru próbki wybranej z zamiennikiem.
Podczas przewidywania, powiedzmy w przypadku Klasyfikacji, parametry wejściowe są podawane każdemu drzewu w lesie i każde drzewo „głosuje” w klasyfikacji, etykieta z największą liczbą głosów wygrywa.
Dlaczego warto korzystać z Losowego lasu zamiast prostego drzewa decyzyjnego? Odchylenie / odchylenie. Losowy Las zbudowany jest z dużo prostszych drzew w porównaniu z pojedynczym drzewem decyzyjnym. Ogólnie Lasy losowe zapewniają dużą redukcję błędów z powodu wariancji i niewielki wzrost błędów z powodu stronniczości.
źródło
Tak, jak powiedzieli autorzy powyżej, algorytm Random Forest jest algorytmem workowania, a nie wzmacniania.
Pakowanie może zmniejszyć wariancję klasyfikatora, ponieważ podstawowe algorytmy, które są dopasowane do różnych próbek, a ich błędy są wzajemnie kompensowane podczas głosowania. Pakowanie odnosi się do uśrednienia nieco różnych wersji tego samego modelu jako sposobu na poprawę mocy predykcyjnej. Aby zastosować tworzenie worków, po prostu konstruujemy drzewa regresji B za pomocą zestawów treningowych B bootstrapped i uśredniamy wynikowe prognozy
Powszechnym i dość udanym zastosowaniem workowania jest Losowy Las
Ale podczas budowania tych drzew decyzyjnych w losowym lesie za każdym razem, gdy rozważany jest podział na drzewie, losowa próbka
m
predyktorów jest wybierana jako podzieleni kandydaci z pełnego zestawu predyktorów p. Podział może wykorzystywać tylko jeden z tychm
predyktorów.źródło