Obecnie uczęszczam na klasę regresji liniowej, ale nie mogę pozbyć się wrażenia, że to, czego się uczę, nie ma już znaczenia ani w nowoczesnej statystyce, ani w uczeniu maszynowym. Dlaczego tyle czasu spędza się na wnioskowaniu o prostej lub wielokrotnej regresji liniowej, skoro tak wiele interesujących zbiorów danych często narusza wiele nierealistycznych założeń regresji liniowej? Dlaczego zamiast tego nie uczyć wnioskowania na temat bardziej elastycznych, nowoczesnych narzędzi, takich jak regresja za pomocą maszyn wektorów wspierających lub procesu Gaussa? Chociaż nie jest to bardziej skomplikowane niż znalezienie hiperpłaszczyzny w przestrzeni kosmicznej, czy nie zapewniłoby to uczniom lepszego zaplecza do rozwiązywania współczesnych problemów?
źródło
Odpowiedzi:
Prawdą jest, że założenia regresji liniowej nie są realistyczne. Dotyczy to jednak wszystkich modeli statystycznych. „Wszystkie modele są błędne, ale niektóre są przydatne”.
Wydaje mi się, że masz wrażenie, że nie ma powodu, aby używać regresji liniowej, gdy można użyć bardziej złożonego modelu. Nie jest to prawdą, ponieważ na ogół bardziej złożone modele są bardziej podatne na nadmierne dopasowanie i wykorzystują więcej zasobów obliczeniowych, co jest ważne, jeśli np. Próbujesz wykonać statystyki na wbudowanym procesorze lub serwerze internetowym. Prostsze modele są również łatwiejsze do zrozumienia i interpretacji; przeciwnie, złożone modele uczenia maszynowego, takie jak sieci neuronowe, wydają się być mniej więcej czarnymi skrzynkami.
Nawet jeśli regresja liniowa pewnego dnia przestanie być praktycznie użyteczna (co wydaje się niezwykle mało prawdopodobne w przewidywalnej przyszłości), nadal będzie teoretycznie ważna, ponieważ bardziej złożone modele zwykle opierają się na regresji liniowej jako podstawie. Na przykład, aby zrozumieć znormalizowaną regresję logistyczną z mieszanymi efektami, musisz najpierw zrozumieć zwykłą regresję liniową.
Nie oznacza to, że bardziej złożone, nowsze i bardziej lśniące modele nie są przydatne ani ważne. Wielu z nich jest. Ale prostsze modele mają szersze zastosowanie, a tym samym ważniejsze, i oczywiście warto zaprezentować je jako pierwsze, jeśli zamierzasz zaprezentować różne modele. W dzisiejszych czasach jest wiele złych analiz danych przeprowadzanych przez ludzi, którzy nazywają siebie „naukowcami danych” lub czymś podobnym, ale nawet nie znają podstawowych informacji, takich jak przedział ufności. Nie bądź statystyką!
źródło
Regresja liniowa ogólnie nie jest przestarzała . Nadal są ludzie, którzy pracują nad badaniami dotyczącymi metod związanych z LASSO i ich związku z wieloma testami, na przykład - możesz google Emmanuel Candes i Malgorzata Bogdan.
Jeśli pytasz w szczególności o algorytm OLS, odpowiedzią, dlaczego uczą tego, jest to, że metoda jest tak prosta, że ma rozwiązanie w formie zamkniętej. Jest to również po prostu prostsze niż regresja kalenicy lub wersja z lasso / elasticnet. Możesz zbudować intuicję / dowody na rozwiązaniu prostej regresji liniowej, a następnie wzbogacić model o dodatkowe ograniczenia.
źródło
Nie sądzę, aby regresja była stara, może być uważana za trywialną w przypadku niektórych problemów, z którymi borykają się obecnie naukowcy danych, ale nadal jest ABC analizy statystycznej. Jak należy zrozumieć, czy SVM działa poprawnie, jeśli nie wiesz, jak działa najprostszy model? Korzystanie z tak prostego narzędzia nauczy Cię, jak patrzeć na dane, zanim przejdziesz do szalonych skomplikowanych modeli i głęboko zrozumieć, które narzędzia można wykorzystać w dalszej analizie, a które nie. Po rozmowie z moim profesorem i moim kolegą powiedziała mi, że jej uczniowie świetnie sobie radzą ze stosowaniem złożonych modeli, ale nie mogli zrozumieć, na czym polega dźwignia, lub przeczytać prosty wykres qq, aby zrozumieć, co jest nie tak z danymi. Często w najprostszym i czytelnym modelu stoi piękno.
źródło
Krótka odpowiedź brzmi: nie . Na przykład, jeśli spróbujesz modelu liniowego z danymi MNIST, nadal uzyskasz ~ 90% dokładności!
Długa odpowiedź brzmiałaby „w zależności od dziedziny”, ale powszechnie stosuje się model liniowy.
Na przykład w niektórych dziedzinach, na przykład w badaniach medycznych, uzyskanie jednego punktu danych jest bardzo drogie. A prace analityczne są nadal podobne do wielu lat temu: regresja liniowa nadal odgrywa bardzo ważną rolę.
W uczeniu maszynowym morden, powiedzmy, klasyfikacji tekstu, model liniowy jest nadal bardzo ważny, chociaż istnieją inne bardziej wyszukane modele. Wynika to z faktu, że model liniowy jest bardzo „stabilny”, dlatego mniej lubi nadmiernie dopasowywać dane.
Wreszcie model liniowy jest tak naprawdę elementami składowymi większości innych modeli. Uczenie się dobrze przyniesie korzyści w przyszłości.
źródło
W praktyce regresja liniowa jest przydatna, nawet jeśli używasz bardziej złożonego modelu do swojej pracy. Kluczem jest to, że regresja liniowa jest łatwa do zrozumienia, a zatem łatwa w użyciu, aby koncepcyjnie zrozumieć, co dzieje się w bardziej złożonych modelach.
Mogę zaoferować praktyczny przykład zastosowania z mojej prawdziwej pracy na żywo jako analityk statystyczny. Jeśli znajdziesz się na wolności, bez nadzoru, z dużym zestawem danych, a twój szef poprosi cię o przeprowadzenie analizy, od czego zacząć? Cóż, jeśli nie znasz zestawu danych i nie masz pojęcia, w jaki sposób różne funkcje powinny się ze sobą odnosić, to złożony model, taki jak te, które zasugerowałeś, jest złym miejscem do rozpoczęcia badań.
Zamiast tego najlepszym miejscem do rozpoczęcia jest prosta stara regresja liniowa. Wykonaj analizę regresji, spójrz na współczynniki i wykreśl resztki. Gdy zaczniesz widzieć, co się dzieje z danymi, możesz podjąć decyzję, jakie zaawansowane metody zamierzasz zastosować.
Twierdzę, że jeśli po prostu podłączyłeś swoje dane do jakiegoś zaawansowanego modelu czarnej skrzynki, takiego jak sklearn.svm (jeśli jesteś w Pythonie), to będziesz miał bardzo małą pewność, że twoje wyniki będą znaczące.
źródło