Używam algorytmu losowego lasu jako solidnego klasyfikatora dwóch grup w badaniu mikromacierzy z tysiącami funkcji.
- Jaki jest najlepszy sposób przedstawienia losowego lasu, aby było wystarczająco dużo informacji, aby można go było odtworzyć w formie papierowej?
- Czy istnieje metoda kreślenia w R, która faktycznie drukuje drzewo, jeśli istnieje niewielka liczba funkcji?
- Czy szacowana przez OOB stopa błędu jest najlepszą statystyką do cytowania?
r
machine-learning
classification
random-forest
microarray
danielsbrewer
źródło
źródło
Odpowiedzi:
Jeśli chodzi o uczynienie go odtwarzalnym, najlepszym sposobem jest zapewnienie powtarzalnych badań (tj. Kodu i danych) wraz z dokumentem. Udostępnij go na swojej stronie internetowej lub stronie hostingowej (np. Github).
Jeśli chodzi o wizualizację, Leo Breiman wykonał kilka interesujących prac w tym zakresie (patrz jego strona główna , w szczególności sekcja grafiki ).
Ale jeśli używasz R,
randomForest
pakiet ma kilka przydatnych funkcji:I
Nie znam prostego sposobu na sporządzenie wykresu drzewa, ale możesz użyć tej
getTree
funkcji do odzyskania drzewa i wykreślenia go osobno.Prezentacja Strobl / Zeileis na „Dlaczego i jak używać zmiennych losowych leśnych środki znaczenie (i jak nie należy)” zawiera przykłady drzew, które muszą być wyprodukowane w ten sposób. Ten post na blogu na temat modeli drzew zawiera kilka ciekawych przykładów wykresów drzewa CART, których można na przykład użyć.
Jak skomentował @chl, pojedyncze drzewo nie ma w tym kontekście szczególnego znaczenia, więc nie używam go do wyjaśnienia, czym jest przypadkowy las, nie zamieściłbym tego w artykule.
źródło
plot.randomForest
pokazuje, jak ewoluował błąd OOB i błąd OOB w klasie wraz ze wzrostem liczby drzew;varImpPlot
pokazuje miary ważności atrybutów dla najwyższych atrybutów iMDSplot
wszystkich obiektów wykreślonych na rzucie 2D miary bliskości obiektów RF.MDSplot()
funkcji. Muszę przyznać, że często używam RF jako sposobu na wyróżnienie grup osób (w oparciu o miarę bliskości RF) zamiast wybierania najlepszych funkcji. Klinicyści często czytają takie wykresy znacznie łatwiej niż dotplot var. znaczenie ...źródło
Pamiętaj o zastrzeżeniach zawartych w innych odpowiedziach dotyczących tego, że fabuła ma znaczenie. Ale jeśli chcesz fabułę do celów ilustracyjnych / pedagogicznych, przydatny może być następujący fragment R. Nie jest trudno dodać „punkt podziału” do tekstu krawędzi, jeśli jest to potrzebne.
źródło