Mam duży zestaw danych składający się z wartości kilkuset zmiennych finansowych, które można by zastosować w regresji wielokrotnej do przewidywania zachowania funduszu indeksowego w czasie. Chciałbym zmniejszyć liczbę zmiennych do około dziesięciu, jednocześnie zachowując jak największą moc predykcyjną. Dodano: Zredukowany zestaw zmiennych musi być podzbiorem oryginalnego zestawu zmiennych, aby zachować ekonomiczne znaczenie oryginalnych zmiennych. Tak więc na przykład nie powinienem kończyć liniowymi kombinacjami lub agregacjami oryginalnych zmiennych.
Niektóre (prawdopodobnie naiwne) przemyślenia, jak to zrobić:
- Wykonaj prostą regresję liniową dla każdej zmiennej i wybierz dziesięć z największą wartości. Oczywiście nie ma gwarancji, że dziesięć najlepszych indywidualnych zmiennych łącznie będzie najlepszą grupą dziesięciu.
- Przeprowadź analizę głównych składników i spróbuj znaleźć dziesięć oryginalnych zmiennych o największych powiązaniach z pierwszymi kilkoma głównymi osiami.
Nie sądzę, żebym mógł przeprowadzić regresję hierarchiczną, ponieważ zmienne nie są tak naprawdę zagnieżdżone. Wypróbowanie wszystkich możliwych kombinacji dziesięciu zmiennych jest niewykonalne obliczeniowo, ponieważ istnieje zbyt wiele kombinacji.
Czy istnieje standardowe podejście do rozwiązania tego problemu zmniejszenia liczby zmiennych w regresji wielokrotnej?
Wydaje się, że byłby to wystarczająco powszechny problem, że byłoby standardowe podejście.
Bardzo pomocna odpowiedź byłaby taka, która nie tylko wspomina o standardowej metodzie, ale także daje przegląd tego, jak i dlaczego to działa. Alternatywnie, jeśli nie ma jednego standardowego podejścia, a raczej wielu z różnymi mocnymi i słabymi stronami, bardzo pomocną odpowiedzią byłoby takie, które omawia ich zalety i wady.
komentarz Whubera poniżej wskazuje, że wniosek w ostatnim akapicie jest zbyt szeroki. Zamiast tego przyjąłbym jako dobrą odpowiedź listę głównych podejść, być może z bardzo krótkim opisem każdego z nich. Po uzyskaniu warunków mogę samodzielnie wyodrębnić szczegóły każdego z nich.
Odpowiedzi:
Ten problem jest zwykle nazywany wyborem podzbioru i istnieje kilka różnych podejść. Zobacz Google Scholar, aby uzyskać przegląd powiązanych artykułów .
źródło
Metoda 1 nie działa. Metoda 2 ma nadzieję w zależności od tego, jak to zrobisz. Lepiej wpisać główne składniki w malejącej kolejności wariancji. Bardziej interpretowalnym podejściem jest robienie zmiennych klastrów, a następnie redukowanie każdego klastra do jednego wyniku (bez użycia Y), a następnie dopasowanie modelu do wyników klastra.
źródło
varclus
funkcję wHmisc
pakiecie R lub PROC VARCLUS w SAS. Redukcja danych może pomóc w podzestawie zmiennych, jeśli zachowujesz ostrożność; możesz usunąć cały klaster, jeśli jestW rozdziale 5 Data Mining with R autor pokazuje kilka sposobów wyboru najbardziej użytecznych predyktorów. (W kontekście bioinformatyki, gdzie każdy wiersz próbki ma ponad 12 000 kolumn!)
Najpierw używa niektórych filtrów opartych na rozkładzie statystycznym. Na przykład, jeśli masz pół tuzina predyktorów, wszystkie o podobnym środku i sd, możesz uniknąć jednego z nich.
Następnie pokazuje, jak używać losowego lasu, aby znaleźć najbardziej przydatne predyktory. Oto samodzielny abstrakcyjny przykład. Widzisz, mam 5 dobrych predyktorów, 5 złych. Kod pokazuje, jak zachować najlepsze 3.
Ostatnie podejście autora polega na zastosowaniu hierarchicznego algorytmu grupowania do grupowania podobnych predyktorów w, powiedzmy, 30 grup. Jeśli chcesz 30 różnych predyktorów, wybierasz losowo jedną z każdej z tych 30 grup.
Oto trochę kodu, używając tych samych danych przykładowych jak powyżej, aby wybrać 3 z 10 kolumn:
Moje przykładowe dane wcale nie odpowiadają temu podejściu, ponieważ mam 5 dobrych predyktorów i 5, które są po prostu szumem. Jeśli wszystkie 10 predyktorami były nieznacznie skorelowane z
y
, i miał dobrą szansę być jeszcze lepiej, gdy stosowane razem (co jest całkiem możliwe, w dziedzinie finansowej), to może być dobre podejście.źródło
Możesz rozważyć zastosowanie metody takiej jak LASSO, która normalizuje najmniejsze kwadraty, wybierając rozwiązanie, które minimalizuje jedną normę wektora parametrów. Okazuje się, że w praktyce skutkuje to minimalizacją liczby niezerowych wpisów w wektorze parametrów. Chociaż LASSO jest popularny w niektórych kręgach statystycznych, w świecie wykrywania kompresyjnego rozważano wiele innych powiązanych metod.
źródło