Spędzam trochę czasu ucząc się uczenia maszynowego (przepraszam za rekurencję :) i nie mogłem zaintrygować się regułą wyboru Gradient Descent zamiast bezpośredniego rozwiązywania równań dla obliczania współczynników regresji, w przypadku wielowymiarowej regresji liniowej.
Ogólna zasada: jeśli liczba funkcji (współczynniki odczytu / zmienne niezależne) wynosi od lub powyżej miliona, przejdź do Gradient Descent, w przeciwnym razie obliczenia odwrotne macierzy są dość możliwe do zarządzania na sprzęcie towarowym, a zatem bezpośrednie obliczenie współczynników powinno być wystarczające .
Pod względem obliczeniowym mam kompromis / ograniczenia. Ale ze statystycznego punktu widzenia naprawdę obliczamy modele z tak wieloma współczynnikami kiedykolwiek? Jeśli pamiętam moje wielowymiarowe klasy regresji liniowej w szkole, ostrzegano nas przed używaniem zbyt wielu zmiennych niezależnych, ponieważ mogą one mieć bardzo znikomy wpływ na zmienną zależną lub ich rozkłady nie byłyby zgodne z założeniami, które przyjmujemy na temat danych. Nawet gdybym rozwinął umysł, by myśleć o „wielu IV”, wciąż nie pomyślałbym o tym w milionach .
Pytania):
- Czy to się naprawdę zdarza, czy jest to kwestia teoretyczna?
- Po co analizować milion IV? Czy to naprawdę daje nam tak duży wzrost wartości uzyskanych informacji, a nie ich ignorowanie?
- A może dlatego, że początkowo nie mamy pojęcia, co jest przydatne, więc po prostu uruchamiamy cholerną regresję, aby zobaczyć, co jest przydatne, i stamtąd stamtąd i ewentualnie przycinamy zestaw IV?
Nadal wierzę tylko dlatego, że możemy analizować „wszystko”, tak naprawdę nie oznacza, że powinniśmy wrzucić to do solwera (lub robi to), a niektóre z moich wcześniejszych pytań odzwierciedlają podobne POV.
Jeszcze nie ukończyłem kursu i być może wkrótce zadam pytanie, ale po prostu nie mogę wyrzucić tego „Dlaczego” z mojej głowy i staram się zrozumieć to najlepiej, jak potrafię.