Losowe lasy online, dodając więcej pojedynczych drzew decyzji

13

Losowy las (RF) jest tworzony przez zespół drzew decyzyjnych (DT). Korzystając z workowania, każdy ID jest trenowany w innym podzbiorze danych. Czy zatem istnieje jakiś sposób na wdrożenie losowego lasu on-line poprzez dodanie większej liczby decyzji dotyczących nowych danych?

Na przykład mamy próbki 10K i trenujemy 10 DT. Następnie otrzymujemy próbki 1K i zamiast ponownie trenować pełne RF, dodajemy nowy ID. Prognozy są teraz wykonywane przez średnią bayesowską 10 + 1 DT.

Ponadto, jeśli zachowamy wszystkie poprzednie dane, nowe ID można trenować głównie w zakresie nowych danych, w których prawdopodobieństwo pobrania próbki jest ważone w zależności od tego, ile razy już pobrano.

tashuhka
źródło

Odpowiedzi:

8

Jest najnowszy artykuł na ten temat ( On-line Random Forests ), pochodzący z wizji komputerowej. Oto implementacja i prezentacja: Losowe lasy online w 10 minut

Emre
źródło
Wspomniane wdrożenie jest zgodne ze strategią uprawy drzew, taką jak lasy Mondrian ( arxiv.org/abs/1406.2673 ). W związku z tym liczba drzew jest stała, a liczba podziałów wzrasta. Moje pytanie koncentruje się na zwiększeniu liczby drzew dla nowych próbek, pozostając nietkniętymi wcześniej wytrenowanymi drzewami.
tashuhka
1
Jak to ? Czy nie chcesz także upuszczać drzew, jeśli to konieczne?
Emre
Dziękuję Ci. Jest to bardziej podobne do tego, czego szukam. W takim przypadku użyj RF do wyboru funkcji sygnałów czasowych. Jednak konkretna implementacja i ważność metody jest dość niejasna, czy wiesz, czy coś opublikowała (Google nie pomógł)?
tashuhka
Dzięki za link! Widzę, że faktycznie aktualizują wszystkie poprzednie drzewa przy użyciu strategii uprawy drzew i jestem zainteresowany tworzeniem nowych ID z nowymi danymi przy jednoczesnym zachowaniu nietkniętych starych drzew.
tashuhka