Myślę, że jest to proste pytanie, chociaż uzasadnienie dlaczego lub dlaczego nie może być. Powodem, dla którego pytam, jest to, że niedawno napisałem własną implementację RF i chociaż działa on dobrze, nie działa tak dobrze, jak się spodziewałem (na podstawie zestawu danych konkursowych Kaggle Photo Quality Prediction , zwycięskich wyników i niektórych dostępne informacje o dostępnych technikach).
Pierwszą rzeczą, którą robię w takich okolicznościach, jest błąd prognozowania wykresu dla mojego modelu, więc dla każdej podanej wartości przewidywania określam średnie odchylenie (lub odchylenie) od właściwej wartości docelowej. Dla mojego RF dostałem ten wykres:
Zastanawiam się, czy jest to często obserwowany wzór odchylenia dla RF (jeśli nie, to może być może coś specyficznego dla zbioru danych i / lub mojej implementacji). Mogę oczywiście użyć tego wykresu, aby poprawić przewidywania, używając go do wyrównania błędu, ale zastanawiam się, czy w samym modelu RF istnieje bardziej fundamentalny błąd lub wada, która wymaga rozwiązania. Dziękuję Ci.
== DODATEK ==
Moje pierwsze dochodzenie znajduje się w tym wpisie na blogu Random Forest Bias - Update
źródło
Odpowiedzi:
(Jestem daleki od eksperta. To tylko rozważania młodszego statystyki, który zajmował się różnymi, ale luźno analogicznymi problemami. Moja odpowiedź może być poza kontekstem.)
Biorąc pod uwagę nową próbkę do przewidzenia i wyrocznię, która ma dostęp do znacznie większego zestawu treningowego, być może „najlepszą” i najbardziej uczciwą prognozą jest powiedzenie „przewiduję z 60% prawdopodobieństwem, że należy ona do klasy czerwonej, a nie klasa niebieska ”.
Dam bardziej konkretny przykład. Wyobraź sobie, że w naszym bardzo dużym zestawie treningowym znajduje się duży zestaw próbek, które są bardzo podobne do naszej nowej próbki. 60% z nich jest niebieskich, a 40% czerwonych. I wydaje się, że nic nie odróżnia Bluesa od Czerwonego. W takim przypadku oczywiste jest, że 60% / 40% jest jedyną prognozą, jaką może zrobić rozsądny człowiek.
Oczywiście nie mamy takiej wyroczni, zamiast tego mamy dużo drzew. Proste drzewa decyzyjne nie są w stanie wykonać tych prognoz 60% / 40%, a zatem każde drzewo dokona dyskretnej prognozy (czerwona lub niebieska, nic pomiędzy). Ponieważ ta nowa próbka spada tuż po czerwonej stronie powierzchni decyzyjnej, przekonasz się, że prawie wszystkie drzewa przewidują kolor czerwony, a nie niebieski. Każde drzewo udaje, że jest bardziej pewne, niż jest w rzeczywistości, i zaczyna odbiegać od tendencyjnych prognoz.
Problem polega na tym, że mamy tendencję do błędnej interpretacji decyzji z jednego drzewa. Przy jednorazowym stawia drzewa węzła w Red klasy, powinniśmy nie interpretują to jako przewidywania 100% / 0% z drzewa. (Nie mówię tylko, że „wiemy”, że prawdopodobnie jest to zła prognoza. Mówię coś mocniejszego, tzn. Że powinniśmy być ostrożni, interpretując to jako prognozę drzewa). Nie mogę zwięźle rozwinąć, jak to naprawić. Możliwe jest jednak zapożyczanie pomysłów na podstawie statystyk dotyczących budowy bardziej „rozmytych” podziałów w obrębie drzewa, aby zachęcić jedno drzewo do większej uczciwości w kwestii jego niepewności. Następnie powinna istnieć możliwość znacznego uśrednienia prognoz z lasu drzew.
Mam nadzieję, że to trochę pomoże. Jeśli nie, mam nadzieję uczyć się na podstawie wszelkich odpowiedzi.
źródło
Tak. Większość drzew ma odchylenie w ogonach. Widzieć:
Jak należy wdrożyć podział drzewa decyzyjnego podczas przewidywania zmiennych ciągłych?
„Jednym z potencjalnych problemów z drzewami jest to, że mają tendencję do słabego dopasowania do ogonów. Pomyśl o terminalnym węźle, który przechwytuje niski zakres zestawu treningowego. Będzie przewidywał na podstawie średniej z tych punktów treningowych, które zawsze będą zaniżone wynik (ponieważ jest to średnia). ”
źródło