Dlaczego moje losowe wyniki w lesie są tak zmienne?

Próbuję przetestować zdolność losowego lasu do klasyfikowania próbek między dwiema grupami; Do klasyfikacji zastosowano 54 próbki i różną liczbę zmiennych.

Zastanawiałem się, dlaczego szacunki braku w torbie (OOB) mogą się różnić nawet o 5%, nawet gdy używam 50 tys. Drzew? Czy jest to coś, w czym może pomóc bootstrapping?

machine-learning random-forest Sethzard
źródło

Musisz kilka próbek. 50 000 drzew nie ma sensu przy tak małej liczbie próbek. Różnice są najprawdopodobniej tylko jedną próbką nieprawidłowo sklasyfikowaną między seriami.

ThiS

@ThiS Myślałem, że zwiększenie liczby drzew zmniejszy wariancję, którą otrzymuję. Czy istnieje sposób, aby zredukować go do zera lub dowiedzieć się, który z nich jest najdokładniejszy?

Sethzard

Istnieją dwa źródła wariancji OOB. Jednym z nich jest losowość samej procedury; można to zmniejszyć poprzez zwiększenie liczby drzew.

Drugim źródłem wariancji jest nieredukowalna niedoskonałość posiadania ograniczonych danych i życia w złożonym świecie. Zwiększenie liczby drzew nie może tego naprawić.

Ponadto czasami po prostu nie ma wystarczających danych, aby rozwiązać problem. Wyobraźmy sobie na przykład, że dwa wystąpienia mają przeciwne etykiety, ale identyczne wartości funkcji. Jedna z tych próbek zawsze będzie błędnie sklasyfikowana. (Jest to skrajny przykład, ale ilustruje, jak niektóre problemy są nierozwiązywalne. Możemy go nieco rozluźnić, biorąc pod uwagę niewielką perturbację jednego wektora; teraz zwykle będzie klasyfikowany tak samo jak jego bliźniak, ale nie zawsze.) Aby rozwiązać ten problem , musisz zebrać dodatkowe pomiary, aby dodatkowo rozróżnić dwa punkty.

Zwiększenie liczby drzew może jednak zmniejszyć wariancję oszacowania czegoś takiego jak . Rozważ wyniki centralnego twierdzenia granicznego: zwiększenie wielkości próby może zmniejszyć wariancję statystyki jak średnia, ale nie wyeliminować jej. Losowe prognozy lasu są średnią wszystkich prognoz drzew, a te prognozy same w sobie są zmiennymi losowymi (z powodu ładowania początkowego i losowego podzbioru funkcji; oba są niezależne, więc głosy również są ważne). CLT zapewnia, że zbliża się do rozkładu normalnego , gdzie jest prawdziwą średnią prognozą i $p(y=1|x)$ $\bar{x}$ $\bar{x}$ $\bar{x}\sim\mathcal{N}(\mu,\frac{\sigma^2}{n})$ $\mu$ $\sigma^2$ to wariancja głosów drzew. (Głosy przyjmują wartości 0 lub 1, więc średnia głosów ma wariancję skończoną.) Chodzi o to, że podwojenie liczby drzew zmniejszy wariancję połowę, ale nie doprowadzi do zero. $\bar{x}$ (Z wyjątkiem sytuacji, gdy , ale wiemy, że tak nie jest.) $\sigma^2=0$

Nieredukowalnej wariancji nie można naprawić za pomocą ładowania początkowego. Ponadto losowe lasy są już ładowane; jest to część powodu, że ma w nazwie „losowy”. (Innym powodem jest losowy podzbiór funkcji przy każdym podziale).

Sycorax mówi Przywróć Monikę
źródło

Dlaczego moje losowe wyniki w lesie są tak zmienne?

Odpowiedzi: