Na kursie uczenia maszynowego Andrew Nga wprowadza regresję liniową i regresję logistyczną oraz pokazuje, jak dopasować parametry modelu za pomocą spadku gradientu i metody Newtona.
Wiem, że zejście gradientowe może być przydatne w niektórych aplikacjach uczenia maszynowego (np. Propagacja wsteczna), ale w bardziej ogólnym przypadku jest jakiś powód, dla którego nie rozwiązalibyśmy parametrów w formie zamkniętej - tj. Biorąc pochodną funkcja kosztów i rozwiązywanie za pomocą rachunku różniczkowego?
Jaka jest zaleta stosowania algorytmu iteracyjnego, takiego jak opadanie gradientu w porównaniu z rozwiązaniem w formie zamkniętej, jeśli jest ono dostępne?
Odpowiedzi:
O ile rozwiązanie w formie zamkniętej nie jest niezwykle drogie w obliczeniach, to na ogół jest to droga, gdy jest dostępna. Jednak,
W przypadku większości problemów z regresją nieliniową nie ma rozwiązania w postaci zamkniętej.
Nawet w regresji liniowej (jeden z niewielu przypadków, w których dostępne jest rozwiązanie w postaci zamkniętej), stosowanie wzoru może być niepraktyczne. Poniższy przykład pokazuje jeden ze sposobów, w jaki może się to zdarzyć.
jest dany przez
Teraz wyobraź sobie, że jest bardzo dużą, ale rzadką macierzą. np. może mieć 100 000 kolumn i 1 000 000 wierszy, ale tylko 0,001% wpisów w jest niezerowych. Istnieją wyspecjalizowane struktury danych do przechowywania tylko niezerowych wpisów takich rzadkich macierzy.X X X
Wyobraź sobie również, że mamy pecha, a to dość gęsta matryca ze znacznie wyższym odsetkiem niezerowych wpisów. Przechowywanie gęstej macierzy o wartości 100 000 na 100 000 elementów wymagałoby wówczas liczb zmiennoprzecinkowych (przy 8 bajtach na liczbę, to jest 80 gigabajtów). Niepraktyczne byłoby przechowywanie na czymkolwiek ale superkomputer. Co więcej, odwrotność tej macierzy (lub częściej czynnik Cholesky'ego) również miałaby zwykle w większości niezerowe wpisy.XTX XTX 1×1010
Jednakże, istnieją sposoby iteracyjne rozwiązywanie problemów najmniejszych kwadratów, które nie wymagają więcej przestrzeni niż , i , a nie bezpośrednio tworzą iloczyn macierzy .X y β^ XTX
W tej sytuacji zastosowanie metody iteracyjnej jest znacznie bardziej wydajne obliczeniowo niż zastosowanie rozwiązania formy zamkniętej dla problemu najmniejszych kwadratów.
Ten przykład może wydawać się absurdalnie duży. Jednak duże rzadkie problemy najmniejszych kwadratów tego rozmiaru są rutynowo rozwiązywane metodami iteracyjnymi na komputerach stacjonarnych w badaniach tomografii sejsmicznej.
źródło
Było kilka postów na temat uczenia maszynowego (ML) i regresji. ML nie jest potrzebny do rozwiązywania zwykłych najmniejszych kwadratów (OLS), ponieważ obejmuje jednoetapową operację sandwiczowania macierzy w celu rozwiązania układu równań liniowych - tj. . Fakt, że wszystko jest liniowe, oznacza, że do rozwiązania współczynników potrzebna jest tylko jednoetapowa operacja. Regresja logistyczna polega na maksymalizacji funkcji wiarygodności , którą można rozwiązać za pomocą Newtona-Raphsona lub innych metod wynurzania gradientu ML, metaheurystyki (wspinaczka, algorytmy genetyczne, inteligencja roju, optymalizacja kolonii mrówek itp.) .β=(XTX)−1XTy L=∏ipi
Jeśli chodzi o parsimony, użycie ML dla OLS byłoby marnotrawstwem, ponieważ iteracyjne uczenie się jest nieskuteczne w rozwiązywaniu OLS.
Wróćmy teraz do twojego prawdziwego pytania na temat podejść pochodnych a metod ML do rozwiązywania problemów opartych na gradiencie. W szczególności w przypadku regresji logistycznej powszechnie stosuje się podejście gradientu Newtona-Raphsona (oparte na pochodnych). Newton-Raphson wymaga znajomości funkcji celu i jej częściowych pochodnych względem każdego parametru (ciągłego w granicy i różniczkowalnego). ML jest najczęściej używany, gdy funkcja celu jest zbyt złożona („wąska”) i nie znasz pochodnych. Na przykład sztuczna sieć neuronowa (ANN) może być wykorzystana do rozwiązania problemu aproksymacji funkcji lub nadzorowanego problemu klasyfikacji, gdy funkcja nie jest znana. W tym przypadku ANN jest funkcją.
Nie popełnij błędu przy użyciu metod ML do rozwiązania problemu regresji logistycznej, tylko dlatego, że możesz. W przypadku logistyki Newton-Raphson jest niezwykle szybki i jest odpowiednią techniką do rozwiązania problemu. ML jest powszechnie używany, gdy nie wiesz, co to za funkcja. (tak przy okazji, ANN są z zakresu inteligencji obliczeniowej, a nie ML).
źródło