Czy naprawdę przeprowadzamy analizę regresji wielowymiarowej z * milionami * współczynników / zmiennych niezależnych?

Spędzam trochę czasu ucząc się uczenia maszynowego (przepraszam za rekurencję :) i nie mogłem zaintrygować się regułą wyboru Gradient Descent zamiast bezpośredniego rozwiązywania równań dla obliczania współczynników regresji, w przypadku wielowymiarowej regresji liniowej.

Ogólna zasada: jeśli liczba funkcji (współczynniki odczytu / zmienne niezależne) wynosi od lub powyżej miliona, przejdź do Gradient Descent, w przeciwnym razie obliczenia odwrotne macierzy są dość możliwe do zarządzania na sprzęcie towarowym, a zatem bezpośrednie obliczenie współczynników powinno być wystarczające . $10,000 - 1,000,000$

Pod względem obliczeniowym mam kompromis / ograniczenia. Ale ze statystycznego punktu widzenia naprawdę obliczamy modele z tak wieloma współczynnikami kiedykolwiek? Jeśli pamiętam moje wielowymiarowe klasy regresji liniowej w szkole, ostrzegano nas przed używaniem zbyt wielu zmiennych niezależnych, ponieważ mogą one mieć bardzo znikomy wpływ na zmienną zależną lub ich rozkłady nie byłyby zgodne z założeniami, które przyjmujemy na temat danych. Nawet gdybym rozwinął umysł, by myśleć o „wielu IV”, wciąż nie pomyślałbym o tym w milionach .

Pytania):

Czy to się naprawdę zdarza, czy jest to kwestia teoretyczna?
Po co analizować milion IV? Czy to naprawdę daje nam tak duży wzrost wartości uzyskanych informacji, a nie ich ignorowanie?
A może dlatego, że początkowo nie mamy pojęcia, co jest przydatne, więc po prostu uruchamiamy cholerną regresję, aby zobaczyć, co jest przydatne, i stamtąd stamtąd i ewentualnie przycinamy zestaw IV?

Nadal wierzę tylko dlatego, że możemy analizować „wszystko”, tak naprawdę nie oznacza, że powinniśmy wrzucić to do solwera (lub robi to), a niektóre z moich wcześniejszych pytań odzwierciedlają podobne POV.

Jeszcze nie ukończyłem kursu i być może wkrótce zadam pytanie, ale po prostu nie mogę wyrzucić tego „Dlaczego” z mojej głowy i staram się zrozumieć to najlepiej, jak potrafię.

machine-learning multiple-regression large-data Doktorat
źródło

Odpowiedzi:

Czy to się naprawdę zdarza, czy jest to kwestia teoretyczna?

Zdarza się, zobacz jakikolwiek popularny model dogłębnej nauki w zakresie wizji komputerowej. Powiedzmy, że Alexnet ma gęste połączenie między 2048 a 2048 jednostkami, czyli 4 miliony współczynników.

Po co analizować milion IV? Czy to naprawdę daje nam tak duży wzrost wartości uzyskanych informacji, a nie ich ignorowanie?

Jeśli analizujesz wysoce kategoryczne dane (np. Dane z reklamy internetowej ), Twój model musi przechowywać pewne znaczące „opisy” dla każdej kategorii (np. Miasto, identyfikator strony, nazwa witryny, identyfikator reklamy, identyfikator użytkownika itp.), Rzeczywisty rozmiar „opisu” zależy od wybranego modelu ML.

Nawet prosta regresja logistyczna będzie wymagała dziesiątek tysięcy parametrów (po jednym dla każdej kategorii). Bardziej zaawansowane modele, takie jak maszyny do faktoryzacji, będą miały więcej razy.

A może dlatego, że początkowo nie mamy pojęcia, co jest przydatne, więc po prostu uruchamiamy cholerną regresję, aby zobaczyć, co jest przydatne, i stamtąd stamtąd wycinamy zestaw IV?

W rzeczywistości większość dopasowanych parametrów w tych modelach można usunąć, ale nie możesz tego wcześniej wiedzieć, więc zostawiasz problem z określeniem, które parametry są ważne dla uczenia maszynowego, i narzucasz pewne regularyzacje, aby ustawić „miękki limit” na efektywną liczbę parametrów do pozostania.

... i myślę, że takie przykłady znajdziesz później na kursie ML.

Alleo
źródło