Losowe lasy online, dodając więcej pojedynczych drzew decyzji

Losowy las (RF) jest tworzony przez zespół drzew decyzyjnych (DT). Korzystając z workowania, każdy ID jest trenowany w innym podzbiorze danych. Czy zatem istnieje jakiś sposób na wdrożenie losowego lasu on-line poprzez dodanie większej liczby decyzji dotyczących nowych danych?

Na przykład mamy próbki 10K i trenujemy 10 DT. Następnie otrzymujemy próbki 1K i zamiast ponownie trenować pełne RF, dodajemy nowy ID. Prognozy są teraz wykonywane przez średnią bayesowską 10 + 1 DT.

Ponadto, jeśli zachowamy wszystkie poprzednie dane, nowe ID można trenować głównie w zakresie nowych danych, w których prawdopodobieństwo pobrania próbki jest ważone w zależności od tego, ile razy już pobrano.

random-forest online-learning tashuhka
źródło

Odpowiedzi:

Jest najnowszy artykuł na ten temat ( On-line Random Forests ), pochodzący z wizji komputerowej. Oto implementacja i prezentacja: Losowe lasy online w 10 minut

Emre
źródło

Wspomniane wdrożenie jest zgodne ze strategią uprawy drzew, taką jak lasy Mondrian ( arxiv.org/abs/1406.2673 ). W związku z tym liczba drzew jest stała, a liczba podziałów wzrasta. Moje pytanie koncentruje się na zwiększeniu liczby drzew dla nowych próbek, pozostając nietkniętymi wcześniej wytrenowanymi drzewami.

tashuhka

Jak to ? Czy nie chcesz także upuszczać drzew, jeśli to konieczne?

Emre

Dziękuję Ci. Jest to bardziej podobne do tego, czego szukam. W takim przypadku użyj RF do wyboru funkcji sygnałów czasowych. Jednak konkretna implementacja i ważność metody jest dość niejasna, czy wiesz, czy coś opublikowała (Google nie pomógł)?

tashuhka

Obliczanie znaczenia funkcji w strumieniach danych przy użyciu koncepcji dryfu przy użyciu losowego lasu online

Emre

Dzięki za link! Widzę, że faktycznie aktualizują wszystkie poprzednie drzewa przy użyciu strategii uprawy drzew i jestem zainteresowany tworzeniem nowych ID z nowymi danymi przy jednoczesnym zachowaniu nietkniętych starych drzew.

tashuhka