Czy losowe lasy wykazują tendencyjne prognozy?

12

Myślę, że jest to proste pytanie, chociaż uzasadnienie dlaczego lub dlaczego nie może być. Powodem, dla którego pytam, jest to, że niedawno napisałem własną implementację RF i chociaż działa on dobrze, nie działa tak dobrze, jak się spodziewałem (na podstawie zestawu danych konkursowych Kaggle Photo Quality Prediction , zwycięskich wyników i niektórych dostępne informacje o dostępnych technikach).

Pierwszą rzeczą, którą robię w takich okolicznościach, jest błąd prognozowania wykresu dla mojego modelu, więc dla każdej podanej wartości przewidywania określam średnie odchylenie (lub odchylenie) od właściwej wartości docelowej. Dla mojego RF dostałem ten wykres:

Wartość prognozy a odchylenie od prawidłowej wartości docelowej

Zastanawiam się, czy jest to często obserwowany wzór odchylenia dla RF (jeśli nie, to może być może coś specyficznego dla zbioru danych i / lub mojej implementacji). Mogę oczywiście użyć tego wykresu, aby poprawić przewidywania, używając go do wyrównania błędu, ale zastanawiam się, czy w samym modelu RF istnieje bardziej fundamentalny błąd lub wada, która wymaga rozwiązania. Dziękuję Ci.

== DODATEK ==

Moje pierwsze dochodzenie znajduje się w tym wpisie na blogu Random Forest Bias - Update

redcalx
źródło
2
Może to być cecha twoich danych; próbowałeś uruchomić inną implementację RF na tym samym zbiorze danych, aby zobaczyć, czy odtwarza ten efekt?

Odpowiedzi:

4

(Jestem daleki od eksperta. To tylko rozważania młodszego statystyki, który zajmował się różnymi, ale luźno analogicznymi problemami. Moja odpowiedź może być poza kontekstem.)

Biorąc pod uwagę nową próbkę do przewidzenia i wyrocznię, która ma dostęp do znacznie większego zestawu treningowego, być może „najlepszą” i najbardziej uczciwą prognozą jest powiedzenie „przewiduję z 60% prawdopodobieństwem, że należy ona do klasy czerwonej, a nie klasa niebieska ”.

Dam bardziej konkretny przykład. Wyobraź sobie, że w naszym bardzo dużym zestawie treningowym znajduje się duży zestaw próbek, które są bardzo podobne do naszej nowej próbki. 60% z nich jest niebieskich, a 40% czerwonych. I wydaje się, że nic nie odróżnia Bluesa od Czerwonego. W takim przypadku oczywiste jest, że 60% / 40% jest jedyną prognozą, jaką może zrobić rozsądny człowiek.

Oczywiście nie mamy takiej wyroczni, zamiast tego mamy dużo drzew. Proste drzewa decyzyjne nie są w stanie wykonać tych prognoz 60% / 40%, a zatem każde drzewo dokona dyskretnej prognozy (czerwona lub niebieska, nic pomiędzy). Ponieważ ta nowa próbka spada tuż po czerwonej stronie powierzchni decyzyjnej, przekonasz się, że prawie wszystkie drzewa przewidują kolor czerwony, a nie niebieski. Każde drzewo udaje, że jest bardziej pewne, niż jest w rzeczywistości, i zaczyna odbiegać od tendencyjnych prognoz.

Problem polega na tym, że mamy tendencję do błędnej interpretacji decyzji z jednego drzewa. Przy jednorazowym stawia drzewa węzła w Red klasy, powinniśmy nie interpretują to jako przewidywania 100% / 0% z drzewa. (Nie mówię tylko, że „wiemy”, że prawdopodobnie jest to zła prognoza. Mówię coś mocniejszego, tzn. Że powinniśmy być ostrożni, interpretując to jako prognozę drzewa). Nie mogę zwięźle rozwinąć, jak to naprawić. Możliwe jest jednak zapożyczanie pomysłów na podstawie statystyk dotyczących budowy bardziej „rozmytych” podziałów w obrębie drzewa, aby zachęcić jedno drzewo do większej uczciwości w kwestii jego niepewności. Następnie powinna istnieć możliwość znacznego uśrednienia prognoz z lasu drzew.

Mam nadzieję, że to trochę pomoże. Jeśli nie, mam nadzieję uczyć się na podstawie wszelkich odpowiedzi.

Aaron McDaid
źródło
Rozmyte rozszczepienia, rozumiesz, w duchu ekstremalnego RF (ale być może nie tak ekstremalnego?). Spróbuję tego, ponieważ twoje wyjaśnienie ma dla mnie sens. Dzięki.
redcalx
[Random Forest - Myśli o problemie z uprzedzeniami] ( the-locster.livejournal.com/134241.html ) „Kluczem zatem (jak sądzę) jest zastosowanie nierównomiernej randomizacji [progu podziału], tak że zestaw wszystkich punkty podziału po połączeniu odtworzą y = f (x) i zbliżą się do idealnej reprezentacji y = f (x), ponieważ liczba DT w RF zmierza w kierunku nieskończoności. ”
redcalx,
Czy prognozy 60/40% nie byłyby obsługiwane przez drzewo regresji? Zaufanie oznaczałoby stosunek klas do podziału liścia (dla zestawu treningowego). Być może to również zostało rozszerzone, aby poradzić sobie również z siłą statystyczną
Alter
3

Tak. Większość drzew ma odchylenie w ogonach. Widzieć:

Jak należy wdrożyć podział drzewa decyzyjnego podczas przewidywania zmiennych ciągłych?

„Jednym z potencjalnych problemów z drzewami jest to, że mają tendencję do słabego dopasowania do ogonów. Pomyśl o terminalnym węźle, który przechwytuje niski zakres zestawu treningowego. Będzie przewidywał na podstawie średniej z tych punktów treningowych, które zawsze będą zaniżone wynik (ponieważ jest to średnia). ”

topepo
źródło
Nie sądzę, aby ten komentarz dotyczył przypadkowych lasów
Zach
Uważam, że referencyjna implementacja losowych lasów kończy się ~ 5 obserwacjami w węzłach, gdy zmienna odpowiedzi jest ciągła. To wciąż wprowadziłoby niewielki błąd systematyczny, gdyby zmienna dzieląca również była ciągła. Podobne do tego, dlaczego LOESS często wygląda lepiej niż wyśrodkowana średnia krocząca na krawędziach podpory ...
Shea Parkes