Używam losowego lasu na wielowymiarowych zgrupowanych danych (50 liczbowych zmiennych wejściowych), które mają strukturę hierachiczną. Dane zebrano przy 6 replikacjach w 30 pozycjach 70 różnych obiektów, co dało 12600 punktów danych, które nie są niezależne.
Wygląda na to, że losowy las przesadza z danymi, ponieważ błąd OOB jest znacznie mniejszy niż błąd, który otrzymujemy, gdy zostawiamy dane z jednego obiektu podczas treningu, a następnie przewidujemy wynik pominiętego obiektu z wyszkolonym losowym lasem. Ponadto skorelowałem reszty.
Myślę, że przeregulowanie jest spowodowane, ponieważ losowy las oczekuje niezależnych danych. Czy można powiedzieć losowemu lasowi o hierarchicznej strukturze danych? A może istnieje inna potężna metoda łączenia lub zmniejszania, która może obsługiwać zgrupowane dane o dużych wymiarach i silnej strukturze interakcji?
Jakaś wskazówka, jak mogę zrobić lepiej?
źródło
Odpowiedzi:
Bardzo późno na imprezę, ale myślę, że może to mieć związek z czymś, co zrobiłem kilka lat temu. Ta praca została opublikowana tutaj:
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379
i dotyczy radzenia sobie ze zmienną korelacją w zbiorze drzew decyzyjnych. Powinieneś rzucić okiem na bibliografię, która wskazuje na wiele propozycji rozwiązania tego rodzaju problemów (co jest powszechne w obszarze „genetycznym”).
Kod źródłowy jest dostępny tutaj (ale tak naprawdę nie jest już utrzymywany).
źródło
Nadmierne dopasowanie losowego lasu może być spowodowane z różnych przyczyn i zależy w dużym stopniu od parametrów RF. W swoim poście nie jest jasne, jak dostroiłeś RF.
Oto kilka wskazówek, które mogą pomóc:
Zwiększ liczbę drzew
Dostrój maksymalną głębokość drzew. Ten parametr w dużym stopniu zależy od rodzaju problemu. Korzystanie z mniejszych drzew może pomóc w problemach z przeregulowaniem.
źródło