Zmienny wybór do modelowania predykcyjnego naprawdę potrzebny w 2016 roku?

67

To pytanie zostało zadane w CV kilka lat temu, wydaje się, że warto je przesłać w świetle 1) lepszej technologii obliczeniowej rzędu wielkości (np. Obliczenia równoległe, HPC itp.) I 2) nowszych technik, np. [3].

Po pierwsze, jakiś kontekst. Załóżmy, że celem nie jest testowanie hipotez, nie szacowanie efektów, ale przewidywanie na podstawie niewidzianego zestawu testów. Nie przypisuje się zatem żadnej korzyści interpretowalnej. Po drugie, powiedzmy, że nie można wykluczyć znaczenia jakiegokolwiek predyktora w rozważaniu przedmiotu, tj. wszystkie wydają się prawdopodobne indywidualnie lub w połączeniu z innymi predyktorami. Po trzecie, masz do czynienia z (setkami) milionów predyktorów. Po czwarte, powiedzmy, że masz dostęp do AWS z nieograniczonym budżetem, więc moc obliczeniowa nie jest ograniczeniem.

Powodem typowego wyboru zmiennej jest 1) wydajność; szybciej dopasować mniejszy model i taniej zebrać mniej predyktorów, 2) interpretacja; znajomość „ważnych” zmiennych daje wgląd w podstawowy proces [1].

Obecnie powszechnie wiadomo, że wiele metod selekcji zmiennych jest nieskutecznych i często wręcz niebezpiecznych (np. Stopniowa regresja do przodu) [2].

Po drugie, jeśli wybrany model jest jakikolwiek dobry, nie trzeba wcale zmniejszać listy predyktorów. Model powinien to zrobić za Ciebie. Dobrym przykładem jest lasso, które przypisuje zerowy współczynnik do wszystkich nieistotnych zmiennych.

Wiem, że niektórzy ludzie opowiadają się za użyciem modelu „słonia”, tj. wrzuć wszystkie możliwe predyktory w dopasowanie i biegnij z nim [2].

Czy istnieje jakiś podstawowy powód, aby dokonywać wyboru zmiennych, jeśli celem jest dokładność predykcyjna?

[1] Reunanen, J. (2003). Nadmierne dopasowanie w porównaniu różnych metod selekcji. The Journal of Machine Learning Research, 3, 1371-1382.

[2] Harrell, F. (2015). Strategie modelowania regresji: z zastosowaniem do modeli liniowych, regresji logistycznej i porządkowej oraz analizy przeżycia. Skoczek.

[3] Taylor, J. i Tibshirani, RJ (2015). Nauka statystyczna i wnioskowanie selektywne. Postępowania z National Academy of Sciences, 112 (25), 7629-7634.

[4] Zhou, J., Foster, D., Stine, R., i Ungar, L. (2005, sierpień). Wybór funkcji przesyłania strumieniowego za pomocą inwestycji alfa. W materiałach jedenastej międzynarodowej konferencji ACM SIGKDD na temat odkrywania wiedzy w eksploracji danych (s. 384–393). ACM.

horaceT
źródło
6
Ładne pierwsze pytanie - być może może być zamknięte jako duplikat, ale doceniam, że poświęciłeś wysiłek na określenie tego, co według ciebie wyróżnia. Sugeruję edycję tytułu, aby było wyraźniej, że koncentrujesz się tylko na przewidywaniu.
Silverfish
5
Jeśli to pytanie zostało już zadane, ale uważasz, że ważne jest, aby przesłać je ponownie po pewnym czasie, to może mógłbyś podać link do poprzedniego pytania? Interesujące może być porównanie poprzednich odpowiedzi.
Tim
1
@ qbert65536 Jeden widok to nie ty. Wybór funkcji jest z natury zawodny.
horaceT
8
Metody, które automatycznie wybierają rzadki podzbiór funkcji (np. Modele z penalizacją 11), również dokonują wyboru funkcji. Krytycznym pytaniem nie jest więc „czy dobór funkcji jest dobry / zły”, ale „jakie właściwości odróżniają dobre metody wyboru funkcji od złych?”. Wykonanie łącznie z estymacją parametrów (jak w lasso) jest jedną właściwością i możemy zapytać, czy to ma znaczenie (wraz z wieloma innymi właściwościami).
user20160
2
@ToussaintLouverture Od czasu, gdy opublikowałem to pytanie rok temu, mam drugą (i trzecią) myśl. Teraz uważam, że właściwym pytaniem jest, jak ważne jest skierowanie wysiłku w kierunku selekcji zmiennych, a nie selekcji modeli w celu wybrania bardziej wydajnego modelu, który uogólnia wszystkie cechy eksperymentu.
horaceT

Odpowiedzi:

37

Od lat krążyły pogłoski, że Google wykorzystuje wszystkie dostępne funkcje do tworzenia algorytmów predykcyjnych. Do tej pory jednak nie pojawiły się żadne zastrzeżenia, wyjaśnienia ani oficjalne dokumenty wyjaśniające i / lub kwestionujące tę plotkę. Nawet ich opublikowane patenty nie pomagają w zrozumieniu. W rezultacie nikt poza Google nie wie, co robi, zgodnie z moją najlepszą wiedzą.

/ * Aktualizacja we wrześniu 2019 r. Ewangelista Google Tensorflow zapisał się w prezentacji stwierdzając, że inżynierowie Google regularnie oceniają ponad 5 miliardów parametrów dla bieżącej wersji PageRank . * /

Jak zauważa OP, jednym z największych problemów w modelowaniu predykcyjnym jest powiązanie klasycznego testowania hipotez z dokładną specyfikacją modelu w porównaniu do eksploracji czystych danych. Klasycznie wyszkoleni mogą być dość dogmatyczni w kwestii potrzeby „rygorystyczności” w projektowaniu i rozwoju modeli. Faktem jest, że w konfrontacji z ogromną liczbą potencjalnych predyktorów i wieloma możliwymi celami lub zmiennymi zależnymi, klasyczny schemat nie działa, nie zawiera ani nie zapewnia użytecznych wskazówek. Liczne ostatnie artykuły opisują ten dylemat z genialnego artykułu Chattopadhyay i Lipsona Smashing danych: Odkrywanie czającego się porządku w danych http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf

Kluczowym wąskim gardłem jest to, że większość algorytmów porównywania danych polega obecnie na ekspercie-człowieku, który określa, jakie „cechy” danych są istotne dla porównania. Proponujemy tutaj nową zasadę szacowania podobieństwa między źródłami dowolnych strumieni danych, nie wykorzystując ani wiedzy w dziedzinie, ani uczenia się.

Do zeszłorocznego artykułu AER na temat problemów z prognozami autorstwa Kleinberga i in. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023, co uzasadnia eksplorację danych i prognozowanie jako przydatne narzędzia w tworzeniu polityki gospodarczej, powołując się na przypadki, w których „wnioskowanie przyczynowe nie jest centralne, a nawet konieczne. „

Faktem jest, że większe pytanie za 64 000 USD to szerokie przesunięcie w myśleniu i wyzwania w stosunku do klasycznych ram testowania hipotez ukrytych np. W sympozjum Edge.org na temat „przestarzałego” myślenia naukowego https://www.edge.org/ odpowiedzi / co-naukowy-pomysł-jest gotowy do przejścia na emeryturę, a także najnowszy artykuł Erica Beinhockera na temat „nowej ekonomii”, który przedstawia kilka radykalnych propozycji integracji bardzo różnych dyscyplin, takich jak ekonomia behawioralna, teoria złożoności, model predykcyjny teoria rozwoju, sieci i portfela jako platforma do wdrażania i przyjmowania polityk https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Nie trzeba dodawać, że kwestie te wykraczają daleko poza kwestie ekonomiczne i sugerują, że przechodzimy zasadniczą zmianę paradygmatów naukowych. Zmieniające się poglądy są tak fundamentalne, jak rozróżnienie między redukcjonistycznym, budowaniem modelu jak brzytwa Ockhama a rozległa Zasada Pełności Epikura lub liczne wyjaśnienia, które z grubsza stwierdzają, że jeśli kilka ustaleń coś wyjaśnia, zachowaj je wszystkie ... https: // en. wikipedia.org/wiki/Principle_of_plenitude

Oczywiście, faceci tacy jak Beinhocker są całkowicie nieobciążeni praktycznymi, w okopach obawami dotyczącymi stosowanych, statystycznych rozwiązań tego ewoluującego paradygmatu. Jeśli chodzi o drobiazgowe pytania o ultra-wysoki wybór zmiennych wymiarowych, OP jest stosunkowo niespecyficzny, jeśli chodzi o realne podejścia do budowy modelu, które mogą wykorzystać, np. Lasso, LAR, algorytmy krokowe lub „modele słoni”, które wykorzystują wszystkie dostępne informacje. Rzeczywistość jest taka, że ​​nawet z AWS lub superkomputerem nie można jednocześnie korzystać ze wszystkich dostępnych informacji - po prostu nie ma wystarczającej ilości pamięci RAM, aby je załadować. Co to znaczy? Zaproponowano obejścia, np. odkrycie NSF w złożonych lub masywnych zestawach danych: wspólne tematy statystycznealgorytmy „dziel i rządź” dla masowej eksploracji danych, np. artykuł Wanga i in., Badanie metod statystycznych i obliczeń dla dużych zbiorów danych http://arxiv.org/pdf/1502.07989.pdf oraz Leskovec i in. książka Mining of Massive Datasets http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&ke words=Mining+of+Massive+Datasets

Istnieją obecnie dosłownie setki, jeśli nie tysiące artykułów na temat różnych aspektów tych wyzwań, wszystkie proponujące bardzo różne silniki analityczne jako rdzeń algorytmów „dziel i rządź”; modele „głębokiego uczenia się” bez nadzoru; teoria losowej macierzy zastosowana do masywnej konstrukcji kowariancji; Bayesowskie modele tensorów do klasycznej, nadzorowanej regresji logistycznej i nie tylko. Piętnaście lat temu debata w dużej mierze koncentrowała się na kwestiach dotyczących względnych zalet hierarchicznych rozwiązań bayesowskich w porównaniu z częstymi modelami skończonej mieszanki. W artykule na ten temat Ainslie i in. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1.197.788&rep=rep1&type=pdfdoszedł do wniosku, że różne podejścia teoretyczne w praktyce dały w dużej mierze równoważne wyniki, z wyjątkiem problemów związanych z danymi rzadkimi i / lub wysokowymiarowymi, w których modele HB miały tę przewagę. Dzisiaj, wraz z pojawieniem się obejść D&C, wszelkie modele HB arbitrażu, z których historycznie korzystali, są eliminowane.

Podstawową logiką tych obejść D&C są w zasadzie rozszerzenia słynnej losowej techniki leśnej Breimana, która polegała na ponownym próbkowaniu obserwacji i funkcji. Breiman wykonał swoją pracę pod koniec lat 90. na jednym procesorze, gdy ogromne dane oznaczały kilkadziesiąt koncertów i kilka tysięcy funkcji. Na dzisiejszych, masowo równoległych, wielordzeniowych platformach możliwe jest uruchomienie algorytmów analizujących terabajty danych zawierających dziesiątki milionów funkcji budujących miliony mini-modeli „RF” w ciągu kilku godzin.

Z tego wszystkiego wynika wiele ważnych pytań. Należy poradzić sobie z obawą o utratę precyzji z uwagi na przybliżony charakter tych obejść. Problem ten został rozwiązany przez Chen i Xie w ich artykule Split-and-Conquer Approach for Analysis of the wyjątkowo niezwykle Data Data http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01-01.pdf gdzie podsumowują że przybliżenia różnią się nie do odróżnienia od modeli „pełnej informacji”.

Druga obawa, która według mojej najlepszej wiedzy nie została odpowiednio poruszona w literaturze, dotyczy tego, co zrobiono z wynikami (tj. „Parametrami”) potencjalnie milionów predykcyjnych mini-modeli po obejściu zostały zwinięte i podsumowane. Innymi słowy, w jaki sposób można wykonać coś tak prostego, jak „ocenianie” nowych danych za pomocą tych wyników? Czy współczynniki mini-modelu należy zapisać i zapisać, czy też po prostu ponownie uruchamia algorytm d & c dla nowych danych?

W swojej książce „ Numbers Rule Your World” Kaiser Fung opisuje dylemat, przed którym stanęła Netflix, gdy został zaprezentowany z zespołem 104 modeli przekazanych przez zwycięzców konkursu. Zwycięzcy rzeczywiście zminimalizowali MSE w porównaniu ze wszystkimi innymi konkurentami, ale przełożyło się to na poprawę dokładności o kilka miejsc po przecinku w 5-punktowej skali ocen typu Likert stosowanej przez ich system rekomendacji filmów. Ponadto utrzymanie infrastruktury IT wymagane dla tego zestawu modeli kosztuje znacznie więcej niż jakiekolwiek oszczędności wynikające z „poprawy” dokładności modelu.

Pozostaje więc pytanie, czy „optymalizacja” jest w ogóle możliwa z informacjami o tej wielkości. Na przykład Emmanuel Derman, fizyk i inżynier finansowy, w swojej książce My Life as a Quant sugeruje, że optymalizacja jest niezrównoważonym mitem, przynajmniej w inżynierii finansowej.

Wreszcie, ważne pytania dotyczące względnej ważności cech z ogromną liczbą cech muszą jeszcze zostać rozwiązane.

Nie ma łatwych odpowiedzi na pytania dotyczące potrzeby wyboru zmiennych, a nowe wyzwania, jakie otwierają obecne, epikurejskie obejścia, wymagają rozwiązania. Najważniejsze jest to, że wszyscy jesteśmy teraz naukowcami danych.

**** EDYCJA *** Referencje

  1. Chattopadhyay I, Lipson H. 2014 Niszczenie danych: odkrywanie czającego się porządku w danych. JR Soc. Interfejs 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826

  2. Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan i Ziad Obermeyer. 2015. „Problemy z prognozami”. American Economic Review, 105 (5): 491–95. DOI: 10.1257 / aer.p20151023

  3. Edge.org, 2014 Coroczne pytanie: JAKA POMYSŁ NAUKOWY JEST GOTOWY DO WYCOFANIA? https://www.edge.org/respactions/what-scientific-idea-is-ready-for-retirement

  4. Eric Beinhocker, Jak głębokie zmiany w ekonomii czynią debatę lewą kontra prawą nieważną, 2016, Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/

  5. Zasada Epikur wielu wyjaśnień: zachowaj wszystkie modele. Wikipedia https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/

  6. NSF, Odkrycie w złożonych lub masywnych zestawach danych: wspólne tematy statystyczne, warsztaty finansowane przez National Science Foundation, 16-17 października 2007 r. Https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf

  7. Metody statystyczne i przetwarzanie danych dla dużych zbiorów danych, dokument roboczy Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu i Jun Yan, 29 października 2015 r. Http://arxiv.org/pdf/1502.07989.pdf

  8. Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Mining of Massive Datasets, Cambridge University Press; 2 wydanie (29 grudnia 2014 r.) ISBN: 978-1107077232

  9. Matryce kowariancji dużych próbek i analizy danych wielowymiarowych (seria Cambridge w matematyce statystycznej i probabilistycznej), autor: Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 wydanie (30 marca 2015 r.) ISBN: 978-1107065178

  10. RICK L. ANDREWS, ANDREW AINSLIE i IMRAN S. CURRIM, Empiryczne porównanie modeli Logit Choice z dyskretnymi i ciągłymi reprezentacjami heterogeniczności, Journal of Marketing Research, 479 obj. XXXIX (listopad 2002), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf

  11. Podejście Split-and-Conquer do analizy wyjątkowo dużych danych, Xueying Chen i Minge Xie, Raport techniczny DIMACS 2012-01, styczeń 2012 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf

  12. Kaiser Fung, Liczby rządzą światem: ukryty wpływ prawdopodobieństwa i statystyki na wszystko, co robisz, edukacja McGraw-Hill; 1 wydanie (15 lutego 2010 r.) ISBN: 978-0071626538

  13. Emmanuel Derman, My Life as a Quant: Refleksje na temat fizyki i finansów, Wiley; 1 wydanie (11 stycznia 2016 r.) ISBN: 978-0470192733

* Aktualizacja w listopadzie 2017 r. *

Książka Nathana Kutza z 2013 r., Modelowanie oparte na danych i obliczenia naukowe: Methods for Complex Systems & Big Data to matematyczna i skoncentrowana na PDE wyprawa do wyboru zmiennych, a także metod i narzędzi do zmniejszania wymiarów. Doskonałe, 1-godzinne wprowadzenie do jego myślenia można znaleźć w tym wideo na Youtube z czerwca 2017 r. Odkrycie danych Dynamical Systems i PDE . Zawiera w nim odniesienia do najnowszych osiągnięć w tej dziedzinie. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop

Mike Hunter
źródło
1
Kilka lat temu w szkole Google Learning Machine School przemówił (zapomniałem nazwiska). Wspomniał o kilku modelach (klasyfikacja binarna) w produkcji, które obejmują około 200 milionów funkcji przeszkolonych w partiach na około 30 TB zbiorów danych; większość z nich to prawdopodobnie funkcje binarne. Nie pamiętam, żeby kiedykolwiek wspominał o selekcji zmiennych.
horaceT
1
Świetne komentarze (choć część tego poszła na styczną). Szczególnie podoba mi się perspektywa, że ​​wiele staromodnych pomysłów wymaga ponownej analizy w erze Big Data.
horaceT
1
@horaceT Bardzo interesujące. Przynajmniej to potwierdza pogłoskę. Dzięki. Który to program ML?
Mike Hunter
1
MLSS 2012 na UC Santa Cruz. Prelegentem był Tushar Chandra, oto slajdy, users.soe.ucsc.edu/~niejiazhong/slides/chandra.pdf
horaceT
2
@Glen_b Dzięki za komentarze. Myślałem, że podałem nazwy i tytuły referencji właśnie z powodu problemu z niedziałającym linkiem. Niezależnie od tego na końcu dodam sekcję referencyjną. Daj mi znać, jeśli czegoś brakuje.
Mike Hunter,
14

Jeśli chodzi o przewidywanie, prawdopodobnie należy pomyśleć o tym, jak szybko model uczy się ważnych funkcji. Nawet myśląc o OLS, da ci to coś w rodzaju wyboru modelu przy wystarczającej ilości danych. Wiemy jednak, że nie dość szybko zbiega się z tym rozwiązaniem - dlatego szukamy czegoś lepszego.

Większość metod przyjmuje założenia dotyczące rodzaju beta / współczynników, które zostaną napotkane (jak wcześniejszy rozkład w modelu bayesowskim). Działają najlepiej, gdy te założenia się utrzymują. Na przykład regresja grzbietu / lassa zakłada, że ​​większość bet jest w tej samej skali, a najbardziej bliska zero. Nie będą działać tak dobrze w przypadku regresji „igieł w stogu siana”, w których większość bet jest równa zero, a niektóre bety są bardzo duże (tzn. Skale są bardzo różne). Wybór funkcji może tutaj działać lepiej - lasso może utknąć pomiędzy kurczącym się hałasem a pozostawieniem sygnału nietkniętym. Wybór funkcji jest bardziej zmienny - efektem jest „sygnał” lub „szum”.

Jeśli chodzi o podejmowanie decyzji - musisz mieć pojęcie o tym, jakie masz zmienne predykcyjne. Czy masz kilka naprawdę dobrych? Czy wszystkie zmienne są słabe? To będzie prowadzić profil bet, które będziesz mieć. I jakich metod kar / selekcji używasz (konie na kursy i tak dalej).

Wybór funkcji również nie jest zły, ale niektóre starsze przybliżenia z powodu ograniczeń obliczeniowych nie są już dobre (krokowe, do przodu). Uśrednianie modeli przy użyciu wyboru funkcji (wszystkie modele 1 var, 2 var itp. Ważone ich wydajnością) wykonają całkiem dobrą robotę w zakresie przewidywania. Ale w gruncie rzeczy karają one beta za ciężar przypisany modelom z tą zmienną wykluczoną - po prostu nie bezpośrednio - i nie w sposób wypukły związany z optymalizacją.

prawdopodobieństwo prawdopodobieństwa
źródło
12

Daję ci perspektywę przemysłu.

Branże nie lubią wydawać pieniędzy na czujniki i systemy monitorowania, na których nie wiedzą, z czego skorzystają.

Na przykład nie chcę nazywać, więc wyobraź sobie komponent z 10 czujnikami zbierającymi dane co minutę. Właściciel aktywów zwraca się do mnie i pyta, jak dobrze możesz przewidzieć zachowanie mojego komponentu z tymi danymi z 10 czujników? Następnie przeprowadzają analizę kosztów i korzyści.

Następnie mają ten sam komponent z 20 czujnikami, pytają mnie ponownie, jak dobrze możesz przewidzieć zachowanie mojego komponentu z tymi danymi z 20 czujników? Przeprowadzają kolejną analizę kosztów i korzyści.

W każdym z tych przypadków porównują korzyści z kosztami inwestycji wynikającymi z instalacji czujników. (Nie chodzi tylko o dodanie do komponentu czujnika o wartości 10 USD. Dużą rolę odgrywa wiele czynników). Tutaj może być przydatna analiza wyboru zmiennych.

PeyM87
źródło
1
Słuszna uwaga. Ale nie
znałbyś
To prawda i zawsze możesz spekulować na podstawie niektórych badań. Każdy czujnik instaluje się w celu, aby uniknąć awarii. Jeśli wskaźniki awarii są niskie lub już pokryłeś znaczną część elementu, wiesz, że dodanie 1 czujnika nie przyniesie dużego zwrotu. Nie musisz więc instalować tych czujników, zbierać danych i przeprowadzać badań, aby dowiedzieć się, czy te dodatkowe czujniki są wystarczająco dobre.
PeyM87
„Czujniki” nie mogą oznaczać czujników - w mojej firmie subskrybujemy wszystkie nasze dane, więc rzeczywiście istnieje możliwość odkrycia funkcji, które do niczego nie przyczyniają się, i obniżenia kosztów poprzez usunięcie ich z usługi subskrypcji (aby wyjaśnić, stawki subskrypcji są opracowywane na wyższym poziomie niż poszczególne kolumny, ale z pewnością można sobie wyobrazić element subskrypcji, który wnosi jedną cechę do ostatecznego modelu i jest w stanie przerwać, jeśli nie poprawi to wydajności)
Robert de Graaf
9

Jako część algorytmu uczenia się modelu czysto predykcyjnego, wybór zmiennych niekoniecznie jest zły z punktu widzenia wydajności, ani nie jest automatycznie niebezpieczny. Istnieją jednak pewne kwestie, o których należy pamiętać.

Aby pytanie było bardziej konkretne, rozważmy problem regresji liniowej z dla oraz i są wektorami -wymiarowymi odpowiednio zmienne i parametry. Celem jest znalezienie dobrego przybliżenia funkcji która jest przewidywaniem dla . Można to osiągnąć przez oszacowaniei = 1 , , N X i β p x E ( Y X = x ) = X T β , Y X = x β

E(YiXi)=XiTβ
i=1,,NXiβp
xE(YX=x)=XTβ,
YX=xβstosując kombinacje zmiennej selekcji i minimalizacji funkcji straty z penalizacją lub bez. Można również zastosować metody uśredniania modelu lub metody bayesowskie, ale skupmy się na przewidywaniach dla jednego modelu.

Algorytmy wyboru krokowego , takie jak selekcja zmiennych do przodu i do tyłu, mogą być postrzegane jako przybliżone próby rozwiązania najlepszego problemu wyboru podzbiorów, który jest trudny obliczeniowo (tak trudny, że poprawa mocy obliczeniowej nie ma większego znaczenia). Interesuje nas znalezienie dla każdego najlepszego (lub przynajmniej dobrego) modelu z zmiennymi. Następnie możemy zoptymalizować ponad .k=1,,min(N,p)kk

Niebezpieczeństwo z taką zmienną procedury wyboru jest to, że wiele standardowych wyników dystrybucyjne są nieważne warunkowo na zmiennej wyboru. Dotyczy to standardowych testów i przedziałów ufności i jest jednym z problemów, o których ostrzega Harrell [2]. Breiman ostrzegł również o wyborze modelu w oparciu o np Malwy w The Little Bootstrap ... . Malwy lub AIC dla tej sprawy, czy nie stanowią wyboru modelu i dadzą nadmiernie optymistyczne błędów predykcji.CpCp

Jednak walidację krzyżową można zastosować do oszacowania błędu prognozowania i do wyboru , a selekcja zmiennych może osiągnąć dobrą równowagę między odchyleniem a wariancją. Jest to szczególnie prawdziwe, jeśli ma kilka dużych współrzędnych, a reszta jest bliska zeru jak wspomina @probabilityislogic.kβ

Metody skurczu, takie jak regresja kalenicy i lasso, mogą zapewnić dobry kompromis między odchyleniem i wariancją bez wyraźnego wyboru zmiennych. Jednak, jak wspomina PO, lasso dokonuje domyślnego wyboru zmiennych. To nie tak naprawdę model, ale metoda dopasowania modelu, która dokonuje wyboru zmiennych. Z tej perspektywy wybór zmiennych (niejawny lub jawny) jest po prostu częścią metody dopasowania modelu do danych i powinien być tak traktowany.

Algorytmy do obliczania estymatora lasso mogą skorzystać z wyboru zmiennych (lub badań przesiewowych). W Statystycznym uczeniu się ze sparsity: lasso i uogólnienia , rozdział 5.10, opisano, w jaki sposób screening, w postaci zaimplementowanej glmnet, jest użyteczny. Może to prowadzić do znacznie szybszego obliczenia estymatora lasso.

Jedno osobiste doświadczenie pochodzi z przykładu, w którym wybór zmiennych umożliwił dopasowanie bardziej skomplikowanego modelu (uogólnionego modelu addytywnego) przy użyciu wybranych zmiennych. Wyniki krzyżowej weryfikacji wykazały, że ten model był lepszy od wielu alternatyw choć nie do przypadkowego lasu. Jeśli gamsel było około który integruje uogólnione modele addytywne ze zmienną wyboru Mógłbym rozważyć próbuje ją również.

Edycja: Odkąd napisałem tę odpowiedź, jest artykuł na temat konkretnej aplikacji, którą miałem na myśli. Dostępny jest kod R do odtwarzania wyników na papierze.

Podsumowując , powiem, że selekcja zmiennych (w takiej czy innej formie) jest i pozostanie przydatna nawet do celów wyłącznie przewidywalnych jako sposób kontrolowania kompromisu wariancji uprzedzeń. Jeśli nie z innych powodów, to przynajmniej dlatego, że bardziej skomplikowane modele mogą nie być w stanie obsłużyć bardzo dużej liczby zmiennych po wyjęciu z pudełka. Jednak z biegiem czasu naturalnie zobaczymy zmiany, takie jak gamsel, które włączają selekcję zmiennych do metodologii szacowania.

Oczywiście zawsze jest konieczne, abyśmy traktowali wybór zmiennych jako część metody szacowania. Niebezpieczeństwo polega na tym, że wybór zmiennych działa jak wyrocznia i identyfikuje prawidłowy zestaw zmiennych. Jeśli uważamy, że i postępujemy tak, jakby zmienne nie zostały wybrane na podstawie danych, istnieje ryzyko popełnienia błędów.

NRH
źródło
1
Nie jestem pewien, w jaki sposób wybór zmiennych umożliwił dopasowanie bardziej skomplikowanego modelu. Z wyborem zmiennych wciąż szacujesz tę samą dużą liczbę parametrów; po prostu szacujesz niektóre z nich jako zero. Stabilność modelu warunkowego dopasowanego po zmiennym wyborze może być mirażem.
Frank Harrell,
1
@Harrell, w konkretnym przykładzie selekcji zmiennych dokonano za pomocą lasso w połączeniu z selekcją stabilności w modelu, w którym wszystkie zmienne wprowadzono liniowo. Gama została następnie dopasowana przy użyciu wybranych zmiennych. Całkowicie się zgadzam, że wybór zmiennych po prostu szacuje niektóre parametry do zera, a aplikacja zrobiła to dokładnie w modelu gry w procedurze dwuetapowej. Jestem pewien, że gamsel zapewnia bardziej systematyczne podejście. Chodzi mi o to, że bez takiego podejścia wybór zmiennych może być użytecznym skrótem.
NRH
1
Użycie niezenalizowanej metody w celu ponownego dopasowania zmiennych wybranych we wcześniejszej fazie karania nie jest właściwe. Byłoby to zasadniczo stronnicze. A niezenalizowany wybór zmiennych nie jest dobrym skrótem.
Frank Harrell,
1
Wybór stabilności jest bardziej konserwatywny niż wybór zmiennych za pomocą lasso i ponowne dopasowanie bez kary. Ta ostatnia, jak można się spodziewać, nie działała zbyt dobrze z predykcyjnego punktu widzenia (jako miara krzyżowej walidacji). Gdy w konkretnym przypadku przeprowadzam walidację krzyżową, stwierdzam, że wybór zmiennej + gam daje lepszą wydajność predykcyjną niż estymator grzbietowy lub lasso, to jestem miarą tego, czy procedura jest dobra.
NRH
1
Proszę zdefiniować „wybór stabilności”. A ponowne dopasowanie bez kar jest antykonserwatywne.
Frank Harrell
4

Pozwólcie mi skomentować stwierdzenie: „... dopasowanie k parametrów do obserwacji n <k po prostu się nie wydarzy”.

W chemometrii często interesują nas modele predykcyjne, a często występuje sytuacja k >> n (np. W danych spektroskopowych). Problem ten zazwyczaj rozwiązuje się po prostu rzutując obserwacje na podprzestrzeń niższego wymiaru a, gdzie a <n, przed regresją (np. Regresja głównej składowej). Przy użyciu częściowej regresji najmniejszych kwadratów projekcja i regresja są wykonywane jednocześnie, co sprzyja jakości prognozowania. Wspomniane metody znajdują optymalne pseudo-inwersje do (pojedynczej) macierzy kowariancji lub macierzy korelacji, np. Przez rozkład wartości w liczbie pojedynczej.

Doświadczenie pokazuje, że wydajność predykcyjna modeli wielowymiarowych wzrasta po usunięciu zakłóceń zmiennych. Tak więc, nawet jeśli - w znaczący sposób - jesteśmy w stanie oszacować k parametrów mających tylko n równań (n <k), dążymy do modeli oszczędnych. W tym celu wybór zmiennych staje się istotny i poświęcono temu tematowi wiele literatury chemometrycznej.

Podczas gdy prognozowanie jest ważnym celem, metody projekcji jednocześnie zapewniają cenny wgląd w np. Wzorce danych i trafność zmiennych. Ułatwiają to głównie różnorodne wykresy modelowe, np. Oceny, obciążenia, wartości resztkowe itp.

Technologia chemometryczna jest szeroko stosowana np. W przemyśle, w którym naprawdę liczą się wiarygodne i dokładne prognozy.

Carsten Ridder
źródło
3

W kilku dobrze znanych przypadkach tak, wybór zmiennych nie jest konieczny. Właśnie z tego powodu głęboka nauka stała się nieco przesadzona.

Na przykład, gdy skręcona sieć neuronowa ( http://cs231n.github.io/convolutional-networks/ ) próbuje przewidzieć, czy wyśrodkowany obraz zawiera ludzką twarz, jego rogi mają zwykle minimalną wartość predykcyjną. Tradycyjne modelowanie i wybór zmiennych spowodowałyby, że modelarz usunąłby piksele narożne jako predyktory; jednak skręcona sieć neuronowa jest na tyle inteligentna, że ​​zasadniczo automatycznie odrzuca te predyktory. Dotyczy to większości modeli dogłębnego uczenia się, które próbują przewidzieć obecność jakiegoś obiektu na obrazie (np. Samochody z własnym napędem „przewidujące” oznaczenia pasa, przeszkody lub inne samochody w ramkach wideo przesyłanego strumieniowo).

Dogłębne uczenie się jest prawdopodobnie przesadą w przypadku wielu tradycyjnych problemów, takich jak małe zbiory danych lub bogata wiedza domenowa, więc tradycyjny wybór zmiennych prawdopodobnie pozostanie istotny przez długi czas, przynajmniej w niektórych obszarach. Niemniej głębokie uczenie się jest świetne, gdy chcesz stworzyć „całkiem dobre” rozwiązanie przy minimalnej interwencji człowieka. Rzemieślnictwo i wybranie predyktorów do rozpoznania odręcznych cyfr na obrazach może zająć mi wiele godzin, ale dzięki zwiniętej sieci neuronowej i możliwości wyboru zmiennej zerowej mogę uzyskać najnowocześniejszy model w niecałe 20 minut za pomocą Google TensorFlow ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).

Ryan Zotti
źródło
3
Bardzo podoba mi się ta perspektywa DL. W Computer Vision spotykane macierze danych są spłaszczonymi obrazami 2D, w których znaczenie konkretnej kolumny zależy od obserwacji. Na przykład piksel 147 może być twarzą kota na obrazie nr 27, ale jest to ściana tła na obrazie nr 42. Tak więc wybór funkcji, jak wiemy, zawiodłby. Właśnie dlatego ConvNet jest tak potężny, ponieważ ma wbudowaną niezmienność translacyjną / rotacyjną.
horaceT