Dlaczego konieczny jest wybór zmiennych?

31

Typowe procedury wyboru zmiennych oparte na danych (na przykład do przodu, do tyłu, krokowo, wszystkie podzbiory) mają tendencję do uzyskiwania modeli o niepożądanych właściwościach, w tym:

  1. Współczynniki odchylone od zera.
  2. Błędy standardowe, które są zbyt małe, a przedziały ufności, które są zbyt wąskie.
  3. Testuj statystyki i wartości p, które nie mają reklamowanego znaczenia.
  4. Szacunki dotyczące dopasowania modelu są zbyt optymistyczne.
  5. Zawarte terminy, które mogą być bez znaczenia (np. Wykluczenie terminów niższego rzędu).

Utrzymują się jednak różne procedury selekcji. Biorąc pod uwagę problemy z wyborem zmiennych, dlaczego te procedury są konieczne? Co motywuje ich użycie?

Kilka propozycji rozpoczęcia dyskusji ....

  • Pragnienie interpretowalnych współczynników regresji? (Nieudany w modelu z wieloma IV?)
  • Wyeliminować wariancję wprowadzoną przez zmienne nieistotne?
  • Wyeliminować niepotrzebne kowariancje / zwolnienia wśród zmiennych niezależnych?
  • Zmniejsz liczbę oszacowań parametrów (problemy z mocą, wielkość próby)

Czy są jeszcze inni? Czy problemy rozwiązane przez techniki selekcji zmiennych są mniej lub bardziej ważne niż problemy wprowadzane przez procedury selekcji zmiennych? Kiedy należy ich używać? Kiedy nie należy ich używać?

Brett
źródło
Moim zdaniem, aby jasno omówić problem, musimy go najpierw sprecyzować, a następnie sformułować w odpowiedniej matematycznej formie, abyśmy mogli stworzyć ramy, w których problem jest jasno omawiany. Dla problemu wyboru zmiennych, na przykład dla modeli regresji liniowej. Wydaje się rozsądne, aby najpierw naprawić model i zbadać (i) zalety / wady (np. Poprawa / pogorszenie szacunków lub prognoz) wyboru zmiennych? (ii) zalety procedury wyboru zmiennej w porównaniu z oszacowaniem LS?

Odpowiedzi:

17

Wybór zmiennych (bez kary) tylko pogarsza sytuację. Wybór zmiennych prawie nie ma szans na znalezienie „właściwych” zmiennych, co powoduje duże zawyżenie efektów pozostałych zmiennych i ogromne zaniżenie standardowych błędów. Błędem jest sądzić, że selekcja zmiennych w zwykły sposób pomaga obejść problem „dużego p małego n”. Najważniejsze jest to, że ostateczny model wprowadza w błąd pod każdym względem. Jest to związane ze zdumiewającym stwierdzeniem, które przeczytałem w artykule epidemiologicznym: „Nie mieliśmy wystarczającej wielkości próby, aby opracować model wielowymiarowy, więc zamiast tego przeprowadziliśmy wszystkie możliwe testy dla tabel 2x2”.

Za każdym razem, gdy dany zestaw danych jest wykorzystywany do eliminacji zmiennych, przy podejmowaniu decyzji za pomocą Y, wszystkie wielkości statystyczne zostaną zniekształcone. Typowy wybór zmiennych to miraż.

Edycja : (Kopiowanie komentarzy od dołu ukrytych przez fold)

Nie chcę być samolubna, ale moja książka Strategie modelowania regresji zagłębia się w to dogłębnie. Materiały online, w tym materiały informacyjne, można znaleźć na mojej stronie internetowej . Niektóre dostępne metody to penalizacja (regresja kalenicy), penalizacja L 1 (lasso) i tak zwana elastyczna siatka (połączenie L 1 i L 2 ). Lub użyj redukcji danych (ślepa na odpowiedź Y ) przed wykonaniem regresji. Moja książka poświęca na to więcej miejsca niż kary.L.2)L.1L.1L.2)Y

Frank Harrell
źródło
6
Myślę, że odpowiedź ta zostałaby poprawiona poprzez podanie wskazówek, jak postępować. Odpowiedź zawiera bardzo szerokie i definitywne stwierdzenia (z którymi ogólnie się zgadzam) bez odniesienia do zasobów, które mogłyby stanowić podstawę roszczeń. Z pewnością kara nie jest też panaceum i jeśli pójdzie się tą drogą, istnieje wiele możliwości wyboru.
kardynał
3
Patrz wyżej, gdzie podałem więcej informacji. Najkrótszym sposobem stwierdzenia problemu jest to, że głównym powodem, dla którego zmienna jest „wybrana”, jest to, że jej efekt został przeceniony.
Frank Harrell,
2
L.2)L.1L.2)
2
L.2)L.2)L.1pn
2
L.2)
14

Po pierwsze, wady, o których wspomniałeś, to skutki niewłaściwego wyboru funkcji , tj. Przeładowanie, niedokończenie lub przeregulowanie.

miYYYmiY

Wszystkie odpowiednie poziomy dają wgląd w to, co naprawdę napędza dany proces, więc mają wartość objaśniającą. Minimalny poziom optymalny (zgodnie z projektem) daje możliwie niedopasowany model pracujący na możliwie jak najmniej uporządkowanych danych.

Prawdziwi FS chcą po prostu osiągnąć jeden z tych celów (zwykle ten drugi).


źródło
4
Zakładam, że masz na myśli usuwanie zmiennych bez korzystania z dostępnych danych. W tym celu nie można użyć dostępnego zestawu danych. Byłoby to niewiarygodne i zakłóciłoby wnioskowanie statystyczne.
Frank Harrell,
Jak napisałem, jest to tylko teoretyczna podstawa problemu (pochodząca z sieci bayesowskich). Dokładny sposób realizacji tego jest oczywiście niemożliwy i z pewnością zgadzam się, że modelowanie statystyczne bardzo ucierpiało z powodu bezmyślnego korzystania z RFE i podobnych rzeczy - jednak uczenie maszynowe ma pewne algorytmy heurystyczne, które z pewnością nie są beznadziejne (tj. Dokonują stabilnych wyborów i modeli które nie okazują się nadmiernie dopasowane w uczciwych testach).
Co to jest RFE ???????
kjetil b halvorsen
@kjetilbhalvorsen Eliminacja funkcji rekurencyjnych
@mbq Thx za interesującą odpowiedź! Czy możesz podać jakieś referencje (książki, dokumenty itp.)? Doceń swoją odpowiedź!
Kare,
10

Wybór zmiennych jest konieczny, ponieważ większość modeli nie radzi sobie dobrze z dużą liczbą nieistotnych zmiennych. Te zmienne wprowadzą tylko szum do twojego modelu lub, co gorsza, spowodują nadmierne dopasowanie. Dobrym pomysłem jest wykluczenie tych zmiennych z analizy.

Co więcej, nie można uwzględnić wszystkich zmiennych, które istnieją w każdej analizie, ponieważ istnieje nieskończona ich liczba. W pewnym momencie musisz narysować linię i dobrze jest to zrobić w sposób rygorystyczny. Stąd cała dyskusja na temat wyboru zmiennych.

Większość problemów z wyborem zmiennych można rozwiązać przez walidację krzyżową lub za pomocą modelu z wbudowaną penalizacją i wyborem funkcji (np. Elastyczna siatka dla modeli liniowych).

Jeśli interesują Cię niektóre wyniki empiryczne związane z wieloma zmiennymi powodującymi nadmierne dopasowanie, sprawdź wyniki konkursu „ Nie przepełniaj” na Kaggle.

Zach
źródło
1
Myślę, że pierwszy akapit zawiera poważne nieporozumienie problemu. Wybór zmiennych w żaden sposób nie pomaga w rozwiązywaniu tych problemów, tylko je ukrywa. Zmienna selekcja powoduje ogromne problemy z przeregulowaniem, chociaż, jak wspomniałeś później, istnieje kilka sposobów uczciwego karania siebie za szkody spowodowane przez zmienną selekcję.
Frank Harrell,
3
@Frank Harrell: jak decydujesz, które zmienne należy wykluczyć z modelu?
Zach.
11
(1) Wykorzystaj wiedzę merytoryczną przed spojrzeniem na zestaw danych; (2) Użyj analizy redundancji / redukcji danych ślepej na Y; (3) Zastosuj metodę, która odpowiednio penalizuje za ogromny problem wielokrotnego porównywania spowodowany wyborem funkcji (patrz gdzie indziej na tej stronie).
Frank Harrell,