Zastosował Lasso do oceny funkcji i uzyskał następujące wyniki:
rank feature prob.
==================================
1 a 0.1825477951589229
2 b 0.07858498115577893
3 c 0.07041793111843796
Pamiętaj, że zestaw danych ma 3 etykiety. Ranking funkcji dla różnych etykiet jest taki sam.
Następnie zastosował losowy las do tego samego zestawu danych:
rank feature score
===================================
1 b 0.17504808300002753
6 a 0.05132699243632827
8 c 0.041690685195283385
Zauważ, że ranking bardzo różni się od tego, który produkuje Lasso.
Jak interpretować różnicę? Czy oznacza to, że podstawowy model jest z natury nieliniowy?
Odpowiedzi:
Twoje zapytanie jest więc porównaniem regresji liniowej z istotnością zmiennych pochodzących z modelu losowego lasu.
Lasso znajduje współczynniki modelu regresji liniowej poprzez zastosowanie regularyzacji. Popularnym podejściem do oceniania ważności zmiennej w modelu regresji liniowej jest rozkładanie na wkłady przypisane każdej zmiennej. Ale znaczenie zmiennej nie jest proste w regresji liniowej z powodu korelacji między zmiennymi. Zapoznaj się z dokumentem opisującym metodę PMD (Feldman, 2005) w poniższych odnośnikach.R2
Innym popularnym podejściem jest uśrednianie zamówień (LMG, 1980). LMG działa w następujący sposób:
Algorytm losowego lasu pasuje do wielu drzew, każde drzewo w lesie jest budowane przez losowe wybieranie różnych funkcji z zestawu danych. Węzły każdego drzewa buduje się, wybierając i dzieląc, aby osiągnąć maksymalne zmniejszenie wariancji. Podczas prognozowania na testowym zbiorze danych dane wyjściowe poszczególnych drzew są uśredniane w celu uzyskania wyniku końcowego. Każda zmienna jest permutowana między wszystkimi drzewami i obliczana jest różnica w błędzie poza próbą przed i po permutacji. Zmienne o największej różnicy są uważane za najważniejsze, a zmienne o niższych wartościach są mniej ważne.
Metoda dopasowania modelu do danych treningowych jest bardzo różna dla modelu regresji liniowej w porównaniu z modelem lasu losowego. Ale oba modele nie zawierają żadnych strukturalnych zależności między zmiennymi.
Jeśli chodzi o zapytanie dotyczące nieliniowości zmiennej zależnej: Lasso jest zasadniczo modelem liniowym, który nie będzie w stanie dać dobrych prognoz dla leżących u jego podstaw procesów nieliniowych w porównaniu z modelami opartymi na drzewach. Powinieneś być w stanie to sprawdzić, weryfikując wydajność modeli w porównaniu z zestawem testowym odłogowanym, jeśli losowy las działa lepiej, podstawowy proces może być nieliniowy. Alternatywnie możesz uwzględnić zmienne efekty interakcji i zmienne wyższego rzędu utworzone za pomocą a, b i c w modelu lasso i sprawdzić, czy ten model działa lepiej w porównaniu z lasso z jedynie liniową kombinacją a, b i c. Jeśli tak, wówczas proces leżący u jego podstaw może być nieliniowy.
Bibliografia:
źródło