Ograniczenia metod zespoleń opartych na drzewach w małych n, dużych p problemach?

10

Metody zestawów oparte na drzewach, takie jak Losowy Las, i kolejne pochodne (np. Las warunkowy), wszystkie wydają się być przydatne w tak zwanych problemach „małych n , dużych p ”, do identyfikacji względnej zmiennej ważności. Rzeczywiście wydaje się, że tak jest, ale moje pytanie brzmi, jak daleko można posunąć tę umiejętność? Czy można mieć, powiedzmy 30 obserwacji i 100 zmiennych? Jaki jest punkt krytyczny takiego podejścia i czy istnieją jakieś przyzwoite zasady, które istnieją? Wolę i zaakceptuję odpowiedzi poparte linkami do faktycznych dowodów (a nie przypuszczeń), przy użyciu symulowanych lub rzeczywistych zestawów danych. Nie znalazłem wiele na temat tego ostatniego ( tu i tutaj), więc Twoje uwagi / porady / (na temat) sugestie referencyjne są mile widziane!

Prophet60091
źródło

Odpowiedzi:

3

Podejrzewam, że nie będzie ostatecznej odpowiedzi na to pytanie, dopóki nie zostaną przeprowadzone badania symulacyjne. W międzyczasie znalazłem Losowe lasy Genuera i in . : pewne spostrzeżenia metodologiczne pomogły mi spojrzeć na to pytanie, przynajmniej pod względem testowania RF na różnych zestawach danych o „niskim n, wysokim p”. Kilka z tych zestawów danych ma> 5000 predyktorów i <100 obserwacji !!

Prophet60091
źródło
3

Tryb awarii, który napotkasz, polega na tym, że przy wystarczającej liczbie losowych funkcji będą istniały funkcje odnoszące się do celu w spakowanych próbkach używanych dla każdego drzewa, ale nie w większym zestawie danych. Podobny problem do tego występującego w wielu testach.

Praktyczne reguły są trudne do opracowania, ponieważ dokładny punkt, w którym to się dzieje, zależy od ilości szumu i siły sygnału w danych. Istnieją również metody, które rozwiązują ten problem, wykorzystując wiele skorygowanych testem wartości p jako kryteriów podziału, wykonując krok wyboru cechy w oparciu o zmienne znaczenie i / lub porównanie ważności cech do cech sztucznego kontrastu wytworzonych przez losową permutację rzeczywistej cechy, użycie out walizek na torby w celu potwierdzenia podziału selekcji i innych metod. Mogą być bardzo skuteczne.

Użyłem losowych lasów (w tym niektóre z powyższych poprawek metodologicznych) w zestawach danych z ~ 1000 przypadków i 30 000-1 000 000 funkcji. (Zestawy danych w genetyce człowieka o różnym poziomie wyboru cech lub inżynierii). Z pewnością mogą być skuteczne w odzyskiwaniu silnego sygnału (lub efektu wsadowego) w takich danych, ale nie radzą sobie dobrze z czymś takim jak choroba o heterogenicznych przyczynach, ponieważ zmienność losowa pokonuje każdy sygnał

Ryan Bressler
źródło
0

Będzie to również zależeć od sygnału i szumu w twoich danych. Jeśli twoja zmienna zależna jest dość dobrze wyjaśniona przez kombinację zmiennych w twoim modelu, myślę, że możesz uzyskać niższy stosunek n / p.

Podejrzewam, że absolutna minimalna liczba n będzie również wymagana, aby uzyskać przyzwoity model oprócz samego stosunku.

Jednym ze sposobów na to jest to, że każde drzewo jest budowane przy użyciu zmiennych SQRT (p), a jeśli liczba ta jest duża, a liczba punktów jest niewielka, drzewa można dopasować bez rzeczywistego modelu. Stąd wiele takich nadmiernie dopasowanych drzew da fałszywe zmienne znaczenie.

Zwykle na wykresie o zmiennej ważności widzę wiele najważniejszych zmiennych o prawie takim samym poziomie ważności, dochodzę do wniosku, że to tylko hałas.

DeepakML
źródło
Skąd pochodzi SQRT (p)?
LauriK,
W RandomForest każde drzewo jest budowane przy użyciu próbki zmiennych. Domyślnie (przynajmniej w pakiecie R randomForest) przyjmowana wartość jest najbliższą liczbą mniejszą lub równą SQRT (p), gdzie p jest liczbą kolumn.
DeepakML