Próbuję przetestować zdolność losowego lasu do klasyfikowania próbek między dwiema grupami; Do klasyfikacji zastosowano 54 próbki i różną liczbę zmiennych.
Zastanawiałem się, dlaczego szacunki braku w torbie (OOB) mogą się różnić nawet o 5%, nawet gdy używam 50 tys. Drzew? Czy jest to coś, w czym może pomóc bootstrapping?
machine-learning
random-forest
Sethzard
źródło
źródło
Odpowiedzi:
Istnieją dwa źródła wariancji OOB. Jednym z nich jest losowość samej procedury; można to zmniejszyć poprzez zwiększenie liczby drzew.
Drugim źródłem wariancji jest nieredukowalna niedoskonałość posiadania ograniczonych danych i życia w złożonym świecie. Zwiększenie liczby drzew nie może tego naprawić.
Ponadto czasami po prostu nie ma wystarczających danych, aby rozwiązać problem. Wyobraźmy sobie na przykład, że dwa wystąpienia mają przeciwne etykiety, ale identyczne wartości funkcji. Jedna z tych próbek zawsze będzie błędnie sklasyfikowana. (Jest to skrajny przykład, ale ilustruje, jak niektóre problemy są nierozwiązywalne. Możemy go nieco rozluźnić, biorąc pod uwagę niewielką perturbację jednego wektora; teraz zwykle będzie klasyfikowany tak samo jak jego bliźniak, ale nie zawsze.) Aby rozwiązać ten problem , musisz zebrać dodatkowe pomiary, aby dodatkowo rozróżnić dwa punkty.
Zwiększenie liczby drzew może jednak zmniejszyć wariancję oszacowania czegoś takiego jak . Rozważ wyniki centralnego twierdzenia granicznego: zwiększenie wielkości próby może zmniejszyć wariancję statystyki jak średnia, ale nie wyeliminować jej. Losowe prognozy lasu są średnią wszystkich prognoz drzew, a te prognozy same w sobie są zmiennymi losowymi (z powodu ładowania początkowego i losowego podzbioru funkcji; oba są niezależne, więc głosy również są ważne). CLT zapewnia, że zbliża się do rozkładu normalnego , gdzie jest prawdziwą średnią prognozą ip(y=1|x) x¯ x¯ x¯∼N(μ,σ2n) μ σ2 to wariancja głosów drzew. (Głosy przyjmują wartości 0 lub 1, więc średnia głosów ma wariancję skończoną.) Chodzi o to, że podwojenie liczby drzew zmniejszy wariancję połowę, ale nie doprowadzi do zero. x¯ (Z wyjątkiem sytuacji, gdy , ale wiemy, że tak nie jest.)σ2=0
Nieredukowalnej wariancji nie można naprawić za pomocą ładowania początkowego. Ponadto losowe lasy są już ładowane; jest to część powodu, że ma w nazwie „losowy”. (Innym powodem jest losowy podzbiór funkcji przy każdym podziale).
źródło