To pytanie zostało zadane w CV kilka lat temu, wydaje się, że warto je przesłać w świetle 1) lepszej technologii obliczeniowej rzędu wielkości (np. Obliczenia równoległe, HPC itp.) I 2) nowszych technik, np. [3].
Po pierwsze, jakiś kontekst. Załóżmy, że celem nie jest testowanie hipotez, nie szacowanie efektów, ale przewidywanie na podstawie niewidzianego zestawu testów. Nie przypisuje się zatem żadnej korzyści interpretowalnej. Po drugie, powiedzmy, że nie można wykluczyć znaczenia jakiegokolwiek predyktora w rozważaniu przedmiotu, tj. wszystkie wydają się prawdopodobne indywidualnie lub w połączeniu z innymi predyktorami. Po trzecie, masz do czynienia z (setkami) milionów predyktorów. Po czwarte, powiedzmy, że masz dostęp do AWS z nieograniczonym budżetem, więc moc obliczeniowa nie jest ograniczeniem.
Powodem typowego wyboru zmiennej jest 1) wydajność; szybciej dopasować mniejszy model i taniej zebrać mniej predyktorów, 2) interpretacja; znajomość „ważnych” zmiennych daje wgląd w podstawowy proces [1].
Obecnie powszechnie wiadomo, że wiele metod selekcji zmiennych jest nieskutecznych i często wręcz niebezpiecznych (np. Stopniowa regresja do przodu) [2].
Po drugie, jeśli wybrany model jest jakikolwiek dobry, nie trzeba wcale zmniejszać listy predyktorów. Model powinien to zrobić za Ciebie. Dobrym przykładem jest lasso, które przypisuje zerowy współczynnik do wszystkich nieistotnych zmiennych.
Wiem, że niektórzy ludzie opowiadają się za użyciem modelu „słonia”, tj. wrzuć wszystkie możliwe predyktory w dopasowanie i biegnij z nim [2].
Czy istnieje jakiś podstawowy powód, aby dokonywać wyboru zmiennych, jeśli celem jest dokładność predykcyjna?
[1] Reunanen, J. (2003). Nadmierne dopasowanie w porównaniu różnych metod selekcji. The Journal of Machine Learning Research, 3, 1371-1382.
[2] Harrell, F. (2015). Strategie modelowania regresji: z zastosowaniem do modeli liniowych, regresji logistycznej i porządkowej oraz analizy przeżycia. Skoczek.
[3] Taylor, J. i Tibshirani, RJ (2015). Nauka statystyczna i wnioskowanie selektywne. Postępowania z National Academy of Sciences, 112 (25), 7629-7634.
[4] Zhou, J., Foster, D., Stine, R., i Ungar, L. (2005, sierpień). Wybór funkcji przesyłania strumieniowego za pomocą inwestycji alfa. W materiałach jedenastej międzynarodowej konferencji ACM SIGKDD na temat odkrywania wiedzy w eksploracji danych (s. 384–393). ACM.
Odpowiedzi:
Od lat krążyły pogłoski, że Google wykorzystuje wszystkie dostępne funkcje do tworzenia algorytmów predykcyjnych. Do tej pory jednak nie pojawiły się żadne zastrzeżenia, wyjaśnienia ani oficjalne dokumenty wyjaśniające i / lub kwestionujące tę plotkę. Nawet ich opublikowane patenty nie pomagają w zrozumieniu. W rezultacie nikt poza Google nie wie, co robi, zgodnie z moją najlepszą wiedzą.
/ * Aktualizacja we wrześniu 2019 r. Ewangelista Google Tensorflow zapisał się w prezentacji stwierdzając, że inżynierowie Google regularnie oceniają ponad 5 miliardów parametrów dla bieżącej wersji PageRank . * /
Jak zauważa OP, jednym z największych problemów w modelowaniu predykcyjnym jest powiązanie klasycznego testowania hipotez z dokładną specyfikacją modelu w porównaniu do eksploracji czystych danych. Klasycznie wyszkoleni mogą być dość dogmatyczni w kwestii potrzeby „rygorystyczności” w projektowaniu i rozwoju modeli. Faktem jest, że w konfrontacji z ogromną liczbą potencjalnych predyktorów i wieloma możliwymi celami lub zmiennymi zależnymi, klasyczny schemat nie działa, nie zawiera ani nie zapewnia użytecznych wskazówek. Liczne ostatnie artykuły opisują ten dylemat z genialnego artykułu Chattopadhyay i Lipsona Smashing danych: Odkrywanie czającego się porządku w danych http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
Do zeszłorocznego artykułu AER na temat problemów z prognozami autorstwa Kleinberga i in. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023, co uzasadnia eksplorację danych i prognozowanie jako przydatne narzędzia w tworzeniu polityki gospodarczej, powołując się na przypadki, w których „wnioskowanie przyczynowe nie jest centralne, a nawet konieczne. „
Faktem jest, że większe pytanie za 64 000 USD to szerokie przesunięcie w myśleniu i wyzwania w stosunku do klasycznych ram testowania hipotez ukrytych np. W sympozjum Edge.org na temat „przestarzałego” myślenia naukowego https://www.edge.org/ odpowiedzi / co-naukowy-pomysł-jest gotowy do przejścia na emeryturę, a także najnowszy artykuł Erica Beinhockera na temat „nowej ekonomii”, który przedstawia kilka radykalnych propozycji integracji bardzo różnych dyscyplin, takich jak ekonomia behawioralna, teoria złożoności, model predykcyjny teoria rozwoju, sieci i portfela jako platforma do wdrażania i przyjmowania polityk https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Nie trzeba dodawać, że kwestie te wykraczają daleko poza kwestie ekonomiczne i sugerują, że przechodzimy zasadniczą zmianę paradygmatów naukowych. Zmieniające się poglądy są tak fundamentalne, jak rozróżnienie między redukcjonistycznym, budowaniem modelu jak brzytwa Ockhama a rozległa Zasada Pełności Epikura lub liczne wyjaśnienia, które z grubsza stwierdzają, że jeśli kilka ustaleń coś wyjaśnia, zachowaj je wszystkie ... https: // en. wikipedia.org/wiki/Principle_of_plenitude
Oczywiście, faceci tacy jak Beinhocker są całkowicie nieobciążeni praktycznymi, w okopach obawami dotyczącymi stosowanych, statystycznych rozwiązań tego ewoluującego paradygmatu. Jeśli chodzi o drobiazgowe pytania o ultra-wysoki wybór zmiennych wymiarowych, OP jest stosunkowo niespecyficzny, jeśli chodzi o realne podejścia do budowy modelu, które mogą wykorzystać, np. Lasso, LAR, algorytmy krokowe lub „modele słoni”, które wykorzystują wszystkie dostępne informacje. Rzeczywistość jest taka, że nawet z AWS lub superkomputerem nie można jednocześnie korzystać ze wszystkich dostępnych informacji - po prostu nie ma wystarczającej ilości pamięci RAM, aby je załadować. Co to znaczy? Zaproponowano obejścia, np. odkrycie NSF w złożonych lub masywnych zestawach danych: wspólne tematy statystycznealgorytmy „dziel i rządź” dla masowej eksploracji danych, np. artykuł Wanga i in., Badanie metod statystycznych i obliczeń dla dużych zbiorów danych http://arxiv.org/pdf/1502.07989.pdf oraz Leskovec i in. książka Mining of Massive Datasets http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&ke words=Mining+of+Massive+Datasets
Istnieją obecnie dosłownie setki, jeśli nie tysiące artykułów na temat różnych aspektów tych wyzwań, wszystkie proponujące bardzo różne silniki analityczne jako rdzeń algorytmów „dziel i rządź”; modele „głębokiego uczenia się” bez nadzoru; teoria losowej macierzy zastosowana do masywnej konstrukcji kowariancji; Bayesowskie modele tensorów do klasycznej, nadzorowanej regresji logistycznej i nie tylko. Piętnaście lat temu debata w dużej mierze koncentrowała się na kwestiach dotyczących względnych zalet hierarchicznych rozwiązań bayesowskich w porównaniu z częstymi modelami skończonej mieszanki. W artykule na ten temat Ainslie i in. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1.197.788&rep=rep1&type=pdfdoszedł do wniosku, że różne podejścia teoretyczne w praktyce dały w dużej mierze równoważne wyniki, z wyjątkiem problemów związanych z danymi rzadkimi i / lub wysokowymiarowymi, w których modele HB miały tę przewagę. Dzisiaj, wraz z pojawieniem się obejść D&C, wszelkie modele HB arbitrażu, z których historycznie korzystali, są eliminowane.
Podstawową logiką tych obejść D&C są w zasadzie rozszerzenia słynnej losowej techniki leśnej Breimana, która polegała na ponownym próbkowaniu obserwacji i funkcji. Breiman wykonał swoją pracę pod koniec lat 90. na jednym procesorze, gdy ogromne dane oznaczały kilkadziesiąt koncertów i kilka tysięcy funkcji. Na dzisiejszych, masowo równoległych, wielordzeniowych platformach możliwe jest uruchomienie algorytmów analizujących terabajty danych zawierających dziesiątki milionów funkcji budujących miliony mini-modeli „RF” w ciągu kilku godzin.
Z tego wszystkiego wynika wiele ważnych pytań. Należy poradzić sobie z obawą o utratę precyzji z uwagi na przybliżony charakter tych obejść. Problem ten został rozwiązany przez Chen i Xie w ich artykule Split-and-Conquer Approach for Analysis of the wyjątkowo niezwykle Data Data http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01-01.pdf gdzie podsumowują że przybliżenia różnią się nie do odróżnienia od modeli „pełnej informacji”.
Druga obawa, która według mojej najlepszej wiedzy nie została odpowiednio poruszona w literaturze, dotyczy tego, co zrobiono z wynikami (tj. „Parametrami”) potencjalnie milionów predykcyjnych mini-modeli po obejściu zostały zwinięte i podsumowane. Innymi słowy, w jaki sposób można wykonać coś tak prostego, jak „ocenianie” nowych danych za pomocą tych wyników? Czy współczynniki mini-modelu należy zapisać i zapisać, czy też po prostu ponownie uruchamia algorytm d & c dla nowych danych?
W swojej książce „ Numbers Rule Your World” Kaiser Fung opisuje dylemat, przed którym stanęła Netflix, gdy został zaprezentowany z zespołem 104 modeli przekazanych przez zwycięzców konkursu. Zwycięzcy rzeczywiście zminimalizowali MSE w porównaniu ze wszystkimi innymi konkurentami, ale przełożyło się to na poprawę dokładności o kilka miejsc po przecinku w 5-punktowej skali ocen typu Likert stosowanej przez ich system rekomendacji filmów. Ponadto utrzymanie infrastruktury IT wymagane dla tego zestawu modeli kosztuje znacznie więcej niż jakiekolwiek oszczędności wynikające z „poprawy” dokładności modelu.
Pozostaje więc pytanie, czy „optymalizacja” jest w ogóle możliwa z informacjami o tej wielkości. Na przykład Emmanuel Derman, fizyk i inżynier finansowy, w swojej książce My Life as a Quant sugeruje, że optymalizacja jest niezrównoważonym mitem, przynajmniej w inżynierii finansowej.
Wreszcie, ważne pytania dotyczące względnej ważności cech z ogromną liczbą cech muszą jeszcze zostać rozwiązane.
Nie ma łatwych odpowiedzi na pytania dotyczące potrzeby wyboru zmiennych, a nowe wyzwania, jakie otwierają obecne, epikurejskie obejścia, wymagają rozwiązania. Najważniejsze jest to, że wszyscy jesteśmy teraz naukowcami danych.
**** EDYCJA *** Referencje
Chattopadhyay I, Lipson H. 2014 Niszczenie danych: odkrywanie czającego się porządku w danych. JR Soc. Interfejs 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan i Ziad Obermeyer. 2015. „Problemy z prognozami”. American Economic Review, 105 (5): 491–95. DOI: 10.1257 / aer.p20151023
Edge.org, 2014 Coroczne pytanie: JAKA POMYSŁ NAUKOWY JEST GOTOWY DO WYCOFANIA? https://www.edge.org/respactions/what-scientific-idea-is-ready-for-retirement
Eric Beinhocker, Jak głębokie zmiany w ekonomii czynią debatę lewą kontra prawą nieważną, 2016, Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Zasada Epikur wielu wyjaśnień: zachowaj wszystkie modele. Wikipedia https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, Odkrycie w złożonych lub masywnych zestawach danych: wspólne tematy statystyczne, warsztaty finansowane przez National Science Foundation, 16-17 października 2007 r. Https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Metody statystyczne i przetwarzanie danych dla dużych zbiorów danych, dokument roboczy Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu i Jun Yan, 29 października 2015 r. Http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Mining of Massive Datasets, Cambridge University Press; 2 wydanie (29 grudnia 2014 r.) ISBN: 978-1107077232
Matryce kowariancji dużych próbek i analizy danych wielowymiarowych (seria Cambridge w matematyce statystycznej i probabilistycznej), autor: Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 wydanie (30 marca 2015 r.) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE i IMRAN S. CURRIM, Empiryczne porównanie modeli Logit Choice z dyskretnymi i ciągłymi reprezentacjami heterogeniczności, Journal of Marketing Research, 479 obj. XXXIX (listopad 2002), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Podejście Split-and-Conquer do analizy wyjątkowo dużych danych, Xueying Chen i Minge Xie, Raport techniczny DIMACS 2012-01, styczeń 2012 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, Liczby rządzą światem: ukryty wpływ prawdopodobieństwa i statystyki na wszystko, co robisz, edukacja McGraw-Hill; 1 wydanie (15 lutego 2010 r.) ISBN: 978-0071626538
Emmanuel Derman, My Life as a Quant: Refleksje na temat fizyki i finansów, Wiley; 1 wydanie (11 stycznia 2016 r.) ISBN: 978-0470192733
* Aktualizacja w listopadzie 2017 r. *
Książka Nathana Kutza z 2013 r., Modelowanie oparte na danych i obliczenia naukowe: Methods for Complex Systems & Big Data to matematyczna i skoncentrowana na PDE wyprawa do wyboru zmiennych, a także metod i narzędzi do zmniejszania wymiarów. Doskonałe, 1-godzinne wprowadzenie do jego myślenia można znaleźć w tym wideo na Youtube z czerwca 2017 r. Odkrycie danych Dynamical Systems i PDE . Zawiera w nim odniesienia do najnowszych osiągnięć w tej dziedzinie. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop
źródło
Jeśli chodzi o przewidywanie, prawdopodobnie należy pomyśleć o tym, jak szybko model uczy się ważnych funkcji. Nawet myśląc o OLS, da ci to coś w rodzaju wyboru modelu przy wystarczającej ilości danych. Wiemy jednak, że nie dość szybko zbiega się z tym rozwiązaniem - dlatego szukamy czegoś lepszego.
Większość metod przyjmuje założenia dotyczące rodzaju beta / współczynników, które zostaną napotkane (jak wcześniejszy rozkład w modelu bayesowskim). Działają najlepiej, gdy te założenia się utrzymują. Na przykład regresja grzbietu / lassa zakłada, że większość bet jest w tej samej skali, a najbardziej bliska zero. Nie będą działać tak dobrze w przypadku regresji „igieł w stogu siana”, w których większość bet jest równa zero, a niektóre bety są bardzo duże (tzn. Skale są bardzo różne). Wybór funkcji może tutaj działać lepiej - lasso może utknąć pomiędzy kurczącym się hałasem a pozostawieniem sygnału nietkniętym. Wybór funkcji jest bardziej zmienny - efektem jest „sygnał” lub „szum”.
Jeśli chodzi o podejmowanie decyzji - musisz mieć pojęcie o tym, jakie masz zmienne predykcyjne. Czy masz kilka naprawdę dobrych? Czy wszystkie zmienne są słabe? To będzie prowadzić profil bet, które będziesz mieć. I jakich metod kar / selekcji używasz (konie na kursy i tak dalej).
Wybór funkcji również nie jest zły, ale niektóre starsze przybliżenia z powodu ograniczeń obliczeniowych nie są już dobre (krokowe, do przodu). Uśrednianie modeli przy użyciu wyboru funkcji (wszystkie modele 1 var, 2 var itp. Ważone ich wydajnością) wykonają całkiem dobrą robotę w zakresie przewidywania. Ale w gruncie rzeczy karają one beta za ciężar przypisany modelom z tą zmienną wykluczoną - po prostu nie bezpośrednio - i nie w sposób wypukły związany z optymalizacją.
źródło
Daję ci perspektywę przemysłu.
Branże nie lubią wydawać pieniędzy na czujniki i systemy monitorowania, na których nie wiedzą, z czego skorzystają.
Na przykład nie chcę nazywać, więc wyobraź sobie komponent z 10 czujnikami zbierającymi dane co minutę. Właściciel aktywów zwraca się do mnie i pyta, jak dobrze możesz przewidzieć zachowanie mojego komponentu z tymi danymi z 10 czujników? Następnie przeprowadzają analizę kosztów i korzyści.
Następnie mają ten sam komponent z 20 czujnikami, pytają mnie ponownie, jak dobrze możesz przewidzieć zachowanie mojego komponentu z tymi danymi z 20 czujników? Przeprowadzają kolejną analizę kosztów i korzyści.
W każdym z tych przypadków porównują korzyści z kosztami inwestycji wynikającymi z instalacji czujników. (Nie chodzi tylko o dodanie do komponentu czujnika o wartości 10 USD. Dużą rolę odgrywa wiele czynników). Tutaj może być przydatna analiza wyboru zmiennych.
źródło
Jako część algorytmu uczenia się modelu czysto predykcyjnego, wybór zmiennych niekoniecznie jest zły z punktu widzenia wydajności, ani nie jest automatycznie niebezpieczny. Istnieją jednak pewne kwestie, o których należy pamiętać.
Aby pytanie było bardziej konkretne, rozważmy problem regresji liniowej z dla oraz i są wektorami -wymiarowymi odpowiednio zmienne i parametry. Celem jest znalezienie dobrego przybliżenia funkcji która jest przewidywaniem dla . Można to osiągnąć przez oszacowaniei = 1 , … , N X i β p x ↦ E ( Y ∣ X = x ) = X T β , Y X = x β
Algorytmy wyboru krokowego , takie jak selekcja zmiennych do przodu i do tyłu, mogą być postrzegane jako przybliżone próby rozwiązania najlepszego problemu wyboru podzbiorów, który jest trudny obliczeniowo (tak trudny, że poprawa mocy obliczeniowej nie ma większego znaczenia). Interesuje nas znalezienie dla każdego najlepszego (lub przynajmniej dobrego) modelu z zmiennymi. Następnie możemy zoptymalizować ponad .k=1,…,min(N,p) k k
Niebezpieczeństwo z taką zmienną procedury wyboru jest to, że wiele standardowych wyników dystrybucyjne są nieważne warunkowo na zmiennej wyboru. Dotyczy to standardowych testów i przedziałów ufności i jest jednym z problemów, o których ostrzega Harrell [2]. Breiman ostrzegł również o wyborze modelu w oparciu o np Malwy w The Little Bootstrap ... . Malwy lub AIC dla tej sprawy, czy nie stanowią wyboru modelu i dadzą nadmiernie optymistyczne błędów predykcji.Cp Cp
Jednak walidację krzyżową można zastosować do oszacowania błędu prognozowania i do wyboru , a selekcja zmiennych może osiągnąć dobrą równowagę między odchyleniem a wariancją. Jest to szczególnie prawdziwe, jeśli ma kilka dużych współrzędnych, a reszta jest bliska zeru jak wspomina @probabilityislogic.k β −
Metody skurczu, takie jak regresja kalenicy i lasso, mogą zapewnić dobry kompromis między odchyleniem i wariancją bez wyraźnego wyboru zmiennych. Jednak, jak wspomina PO, lasso dokonuje domyślnego wyboru zmiennych. To nie tak naprawdę model, ale metoda dopasowania modelu, która dokonuje wyboru zmiennych. Z tej perspektywy wybór zmiennych (niejawny lub jawny) jest po prostu częścią metody dopasowania modelu do danych i powinien być tak traktowany.
Algorytmy do obliczania estymatora lasso mogą skorzystać z wyboru zmiennych (lub badań przesiewowych). W Statystycznym uczeniu się ze sparsity: lasso i uogólnienia , rozdział 5.10, opisano, w jaki sposób screening, w postaci zaimplementowanej
glmnet
, jest użyteczny. Może to prowadzić do znacznie szybszego obliczenia estymatora lasso.Jedno osobiste doświadczenie pochodzi z przykładu, w którym wybór zmiennych umożliwił dopasowanie bardziej skomplikowanego modelu (uogólnionego modelu addytywnego) przy użyciu wybranych zmiennych. Wyniki krzyżowej weryfikacji wykazały, że ten model był lepszy od wielu alternatyw choć nie do przypadkowego lasu. Jeśli gamsel było około który integruje uogólnione modele addytywne ze zmienną wyboru Mógłbym rozważyć próbuje ją również.− − −
Edycja: Odkąd napisałem tę odpowiedź, jest artykuł na temat konkretnej aplikacji, którą miałem na myśli. Dostępny jest kod R do odtwarzania wyników na papierze.
Podsumowując , powiem, że selekcja zmiennych (w takiej czy innej formie) jest i pozostanie przydatna nawet do celów wyłącznie przewidywalnych jako sposób kontrolowania kompromisu wariancji uprzedzeń. Jeśli nie z innych powodów, to przynajmniej dlatego, że bardziej skomplikowane modele mogą nie być w stanie obsłużyć bardzo dużej liczby zmiennych po wyjęciu z pudełka. Jednak z biegiem czasu naturalnie zobaczymy zmiany, takie jak gamsel, które włączają selekcję zmiennych do metodologii szacowania.− −
Oczywiście zawsze jest konieczne, abyśmy traktowali wybór zmiennych jako część metody szacowania. Niebezpieczeństwo polega na tym, że wybór zmiennych działa jak wyrocznia i identyfikuje prawidłowy zestaw zmiennych. Jeśli uważamy, że i postępujemy tak, jakby zmienne nie zostały wybrane na podstawie danych, istnieje ryzyko popełnienia błędów.
źródło
Pozwólcie mi skomentować stwierdzenie: „... dopasowanie k parametrów do obserwacji n <k po prostu się nie wydarzy”.
W chemometrii często interesują nas modele predykcyjne, a często występuje sytuacja k >> n (np. W danych spektroskopowych). Problem ten zazwyczaj rozwiązuje się po prostu rzutując obserwacje na podprzestrzeń niższego wymiaru a, gdzie a <n, przed regresją (np. Regresja głównej składowej). Przy użyciu częściowej regresji najmniejszych kwadratów projekcja i regresja są wykonywane jednocześnie, co sprzyja jakości prognozowania. Wspomniane metody znajdują optymalne pseudo-inwersje do (pojedynczej) macierzy kowariancji lub macierzy korelacji, np. Przez rozkład wartości w liczbie pojedynczej.
Doświadczenie pokazuje, że wydajność predykcyjna modeli wielowymiarowych wzrasta po usunięciu zakłóceń zmiennych. Tak więc, nawet jeśli - w znaczący sposób - jesteśmy w stanie oszacować k parametrów mających tylko n równań (n <k), dążymy do modeli oszczędnych. W tym celu wybór zmiennych staje się istotny i poświęcono temu tematowi wiele literatury chemometrycznej.
Podczas gdy prognozowanie jest ważnym celem, metody projekcji jednocześnie zapewniają cenny wgląd w np. Wzorce danych i trafność zmiennych. Ułatwiają to głównie różnorodne wykresy modelowe, np. Oceny, obciążenia, wartości resztkowe itp.
Technologia chemometryczna jest szeroko stosowana np. W przemyśle, w którym naprawdę liczą się wiarygodne i dokładne prognozy.
źródło
W kilku dobrze znanych przypadkach tak, wybór zmiennych nie jest konieczny. Właśnie z tego powodu głęboka nauka stała się nieco przesadzona.
Na przykład, gdy skręcona sieć neuronowa ( http://cs231n.github.io/convolutional-networks/ ) próbuje przewidzieć, czy wyśrodkowany obraz zawiera ludzką twarz, jego rogi mają zwykle minimalną wartość predykcyjną. Tradycyjne modelowanie i wybór zmiennych spowodowałyby, że modelarz usunąłby piksele narożne jako predyktory; jednak skręcona sieć neuronowa jest na tyle inteligentna, że zasadniczo automatycznie odrzuca te predyktory. Dotyczy to większości modeli dogłębnego uczenia się, które próbują przewidzieć obecność jakiegoś obiektu na obrazie (np. Samochody z własnym napędem „przewidujące” oznaczenia pasa, przeszkody lub inne samochody w ramkach wideo przesyłanego strumieniowo).
Dogłębne uczenie się jest prawdopodobnie przesadą w przypadku wielu tradycyjnych problemów, takich jak małe zbiory danych lub bogata wiedza domenowa, więc tradycyjny wybór zmiennych prawdopodobnie pozostanie istotny przez długi czas, przynajmniej w niektórych obszarach. Niemniej głębokie uczenie się jest świetne, gdy chcesz stworzyć „całkiem dobre” rozwiązanie przy minimalnej interwencji człowieka. Rzemieślnictwo i wybranie predyktorów do rozpoznania odręcznych cyfr na obrazach może zająć mi wiele godzin, ale dzięki zwiniętej sieci neuronowej i możliwości wyboru zmiennej zerowej mogę uzyskać najnowocześniejszy model w niecałe 20 minut za pomocą Google TensorFlow ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).
źródło