Jak włączyć losowe efekty (lub powtarzane pomiary) do randomForest

22

Nie jestem nawet pewien, czy pytanie ma sens, ale wydaje mi się, że widziałem kilka tytułów artykułów, w których zaproponowano losowy las z losowymi efektami. Czy jest to możliwe w R?

mguzmann
źródło
1
Tak, to nie ma większego sensu. Co rozumiesz przez przypadkowe efekty?
Simone
Mam na myśli coś podobnego do tego, co możesz zrobić z funkcją lmer, w której możesz dołączyć losowy efekt jako (efekt 1 |).
mguzmann
Czy to symulowane wyżarzanie w losowym lesie? econpapers.repec.org/article/bpjjqsprt/... researchgate.net/publication/...
EngrStudent - dozbrojenie Monica
2
Nie jestem całkiem pewien, jaki rodzaj losowości to metody, na które patrzysz. Losowe lasy to prosta poprawa w stosunku do workowania poprzez dekorowanie drzewa. Powodem, dla którego nazywany jest „losowym”, jest fakt, że w każdym przypadku, gdy rozważane jest rozszczepienie w drzewie, kandydat na podzielony wybierany jest z losowego podzbioru m np. Predyktorów p. Zwykle m ~ sqrt (p). I za każdym razem, gdy dochodzi do podziału, wybierany jest losowy podzbiór predyktorów, stąd losowy las.
psteelk

Odpowiedzi:

13

Nie są one powszechnie stosowane razem, dlatego należy zachować ostrożność przed ich połączeniem.

Losowe lasy są zwykle używane jako klasyfikatory. Powodem, dla którego użyjesz losowego lasu zamiast innej metody (np. K-oznacza grupowanie) jest to, że możesz mieć dużą liczbę wymiarów, według których chcesz sklasyfikować. Problem z dużą liczbą wymiarów polega na tym, że jeśli chcesz przetestować wszystkie kombinacje rzędów wymiarów, będziesz mieć dużą liczbę opcji (rośnie szybciej niż liczba silni wymiarów).

Losowe efekty są zwykle stosowane w regresji z powtarzanymi pomiarami tego samego. Są one powszechnie stosowane w modelach efektów mieszanych, w których pojęcie mieszane odnosi się zarówno do efektów stałych, jak i losowych. Uważa się, że ustalone efekty reprezentują parametry, które zobaczysz ponownie (np. Lek lub wiek osoby). Uważa się, że efekty losowe reprezentują przypadek zmienności wokół parametru, którego już nie zobaczysz (np. Konkretna osoba).

Istnieją przykłady używania ich razem, gdy istnieją dane klastrowe http://dx.doi.org/10.1080/00949655.2012.741599 i http://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf .

Nie znam żadnych pakietów R, które mogą wykonać tę analizę.

Bill Denney
źródło
2
Ponadto autorzy tej pracy chętnie podzielą się z tobą kodem R ich implementacji. Po prostu napisz do nich. Tak zrobiłem.
Brash Equilibrium
Skontaktowałem się z Larocque, który skontaktował się z Hajjamem, który przesłał mi e-mail w ciągu kilku dni.
Brash Equilibrium
2
Jednak uczciwe ostrzeżenie, dostępny kod R implementuje tylko losowy las dla ciągłych danych. Musisz go rozszerzyć, aby obsługiwał dane kategoryczne.
Brash Equilibrium
10

Tak, to możliwe. Powinieneś sprawdzić „ RE-EM Drzewa: Podejście eksploracji danych dla danych wzdłużnych i klastrowych ” oraz powiązany pakiet R REEMtree .

Minęło trochę czasu, odkąd spojrzałem na gazetę. Pamiętam, że autorzy nie próbowali jeszcze tworzyć zespołów tych drzew, ale nic nie sugerowało, że to nie zadziała.

Ben Ogorek
źródło
1
REEMtree nie jest losowymi efektami stosowanymi do losowych lasów. Jest stosowany do partycjonowania rekurencyjnego, które jest tylko częścią tego, co wchodzi w losowy model lasu. Więc nie sądzę, że ta odpowiedź zasługuje na wyższy wynik niż Bill Denney. Niestety mój głos w tej sprawie jest zablokowany.
Brash Equilibrium,
1
Chodź, kiedy już masz drzewo, jak ciężko jest zbudować las? I nie ma za co.
Ben Ogorek,
1
Cóż, widząc, jak losowy las dodaje się do próbkowania bootstrap, dostrajając liczbę losowo wybranych funkcji do wypróbowania, agregacji wyników drzewa itp. I potrzebujemy losowego wpływu na losowe prognozy lasu, a nie prognozy poszczególnych drzew w tym las, rozszerzenie REEMtree nie jest tak dobrym rozwiązaniem, jak przeczytanie artykułu cytowanego przez Billa i zażądanie kodu R od jego autorów.
Brash Equilibrium
8

Mieszane efekty Losowe lasy (MERF) to coś. Jak wynika z powyższej odpowiedzi, istnieje kilka świetnych badań na ten temat przeprowadzonych przez grupę dr Larocque'a w HEC Montreal. Artykuł znajduje się tutaj: http://www.tandfonline.com/doi/abs/10.1080/00949655.2012.741599 .

Zasadniczo jest to teoretycznie rozsądny sposób łączenia nieliniowego modelowania losowych lasów z liniowymi efektami losowymi.

Właśnie wydaliśmy pakiet open source w Pythonie implementujący MERF przy użyciu powyższego algorytmu w artykule.

Napisaliśmy szczegółowy post na blogu o pakiecie i tym, jak go używać do klastrowych zestawów danych.

Sourav Dey
źródło
1
wszelkie przemyślenia na temat implementacji tego w R lub dodania funkcjonalności wykresu częściowej zależności
OliverFishCode