Wybór liczby rzadkich głównych składników, które należy uwzględnić w regresji

9

Czy ktoś ma doświadczenie w podejściu do wyboru liczby rzadkich głównych składników, które należy uwzględnić w modelu regresji?

Frank Harrell
źródło
Nie mam z tym konkretnie doświadczenia, ale zakładam, że walidacja krzyżowa byłaby jednym dobrym podejściem (jak zawsze).
ameba

Odpowiedzi:

4

Chociaż nie mam bezpośredniego wglądu w twoje pytanie, natknąłem się na niektóre artykuły badawcze , które mogą Cię zainteresować. Oczywiście, jeśli dobrze rozumiem, że mówisz o rzadkim PCA , regresji głównych składników i pokrewnych tematach. W takim przypadku oto dokumenty:

Aleksandr Blekh
źródło
1
Nie wiedziałem o wszystkich tych odniesieniach. Są bardzo dobre - dzięki.
Frank Harrell,
@FrankHarrell: Nie ma za co! Cieszę się, że mogłem pomóc.
Aleksandr Blekh
1

Wyniki krzyżowej weryfikacji zostały również wykorzystane do określenia optymalnej liczby wymiarów dla przestrzeni LSI. Zbyt mało wymiarów nie wykorzystało mocy predykcyjnej danych; podczas gdy zbyt wiele wymiarów spowodowało nadmierne dopasowanie. Ryc. 4 pokazuje rozkład średnich błędów dla modeli o różnej liczbie wymiarów LSI. Modele z czterowymiarowymi przestrzeniami LSI wytwarzały zarówno najmniejszą średnią liczbę błędów, jak i najmniejszą medianę liczby błędów, więc ostateczny model został zbudowany przy użyciu czterowymiarowej przestrzeni LSI.

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

Mogę opublikować kopię, jeśli nie jesteś członkiem ieee.

To jest z artykułu, który napisałem w licencjacie. Miałem problem, w którym musiałem zdecydować, ile wymiarów (ukryte indeksowanie semantyczne jest podobne do PCA) do zastosowania w moim modelu regresji logistycznej. To, co zrobiłem, to wybranie miary (tj. Poziomu błędu przy użyciu prawdopodobieństwa oflagowania wynoszącego .5) i przyjrzałem się rozkładowi tego poziomu błędu dla różnych modeli wytrenowanych na różnej liczbie wymiarów. Następnie wybrałem model o najniższym poziomie błędu. Możesz użyć innych wskaźników, takich jak obszar pod krzywą ROC.

Możesz również użyć czegoś takiego jak regresja krokowa, aby wybrać liczbę wymiarów dla siebie. Jaki rodzaj regresji wykonujesz konkretnie?

Co rozumiesz przez rzadkie btw?

Andrew Cassidy
źródło
Rzadki PC to na przykład PCA z otwarciem L1 (lasso). W zwykłym PCA zwykle możemy wprowadzać terminy w kolejności wyjaśnionej odmiany. Przy rzadkich PCA rzeczy są nieco bardziej nieobliczalne, więc wybór może być trudniejszy.
Frank Harrell,
Pytanie było konkretnie o nielicznych głównych składników, a to odpowiedź (dobrze jak to jest) nie odnosi się w ogóle , więc -1.
ameba
Regresja krokowa, która wybiera komponenty na podstawie skojarzeń z Yspowoduje przeregulowanie, chyba że zostaną wprowadzone specjalne funkcje karne.
Frank Harrell,
@FrankHarrell, które mogą się zdarzyć, ale są mniej podatne na to, jeśli użyjesz AIC zamiast R-kwadrat
Andrew Cassidy
@amoeba Jestem zdezorientowany ... nie, nie odniosłem się do „rzadkiej” części głównych komentarzy, ale podałeś dokładnie taką samą sugestię, aby użyć krzyżowej weryfikacji w komentarzu?
Andrew Cassidy,