Wielowymiarowa regresja liniowa a sieć neuronowa?

54

Wydaje się, że w niektórych przypadkach można uzyskać podobne wyniki do sieci neuronowej z wielowymiarową regresją liniową, a wielowymiarowa regresja liniowa jest bardzo szybka i łatwa.

W jakich okolicznościach sieci neuronowe mogą dawać lepsze wyniki niż wielowymiarowa regresja liniowa?

Hugh Perkins
źródło

Odpowiedzi:

28

Sieci neuronowe mogą w zasadzie automatycznie modelować nieliniowości (patrz uniwersalne twierdzenie o aproksymacji ), które trzeba jawnie modelować za pomocą przekształceń (splajnów itp.) W regresji liniowej.

Zastrzeżenie: pokusa, aby się dopasować, może być (nawet) silniejsza w sieciach neuronowych niż w regresji, ponieważ dodawanie ukrytych warstw lub neuronów wygląda nieszkodliwie. Dlatego należy zachować szczególną ostrożność, aby spojrzeć na wyniki prognozowania poza próbą.

S. Kolassa - Przywróć Monikę
źródło
Dobrze. Wydaje mi się, że w mojej głowie pojawia się pytanie, w jakim stopniu mogę odtworzyć podobne zachowanie poprzez rozszerzenie danych wejściowych o wyrażenia kwadratowe i sześcienne?
Hugh Perkins
3
W rzeczywistości można prawdopodobnie przybliżać NN za pomocą odpowiednio przekształconych regresorów w regresji liniowej tak dokładnie, jak chcesz (i odwrotnie). Lepsze praktyki niż kwadratyki i sześcienne to splajny - szczerze polecam podręcznik Harrella „Strategie modelowania regresji”.
S. Kolassa - Przywróć Monikę
Dobrze. Czy uzasadnione jest założenie, że czas szkolenia będzie krótszy dla regresji liniowej na przekształconych danych, czy też czasy szkolenia będą w przybliżeniu podobne? Czy rozwiązanie regresji liniowej dla transformowanych danych będzie miało jedno globalne maksimum, czy też będzie miało wiele lokalnych minimum jak dla sieci neuronowych? (Edycja: Myślę, że bez względu na to, w jaki sposób wejścia są przekształcane, roztwór do regresji liniowej jest tylko pseudoinverse matrycy projektowej pomnożonej przez coś-coś i dlatego jest zawsze albo unikatowy lub pojedynczej?)
Hugh Perkins
2
Czasy szkolenia będą oczywiście zależeć od wymiarów wejściowych (kilka / wiele obserwacji, kilka / wiele predyktorów). Regresja liniowa obejmuje pojedynczą (pseudo-) odwrotność (tak, wyjątkowość / osobliwość nawet w przypadku transformowanych regresorów), podczas gdy NN są zwykle trenowane w sposób iteracyjny, ale iteracje nie obejmują odwracania macierzy, więc każda iteracja jest szybsza - zazwyczaj przerwać trening na podstawie jakiegoś kryterium mającego na celu powstrzymanie cię od nadmiernego dopasowania.
S. Kolassa - Przywróć Monikę
1
@Yamcha: rozumiem uniwersalne twierdzenie o aproksymacji, że wymiarowość w zasadzie nie ma znaczenia. (Oczywiście jest to wynik asymptotyczny. Spodziewałbym się, że potrzebujesz ogromnych ilości danych, aby NN był lepszy niż precyzyjnie dostrojona regresja wielomianowa. Zaczyna brzmieć jak głębokie uczenie się ...)
S. Kolassa - Przywróć Monikę
16

Wspominasz o regresji liniowej. Jest to związane z regresją logistyczną , która ma podobny algorytm szybkiej optymalizacji. Jeśli masz granice wartości docelowych, na przykład problem z klasyfikacją, możesz zobaczyć regresję logistyczną jako uogólnienie regresji liniowej.

Sieci neuronowe są bardziej ogólne niż regresja logistyczna na oryginalnych wejściach, ponieważ odpowiada to sieci pomostowej (z połączeniami bezpośrednio łączącymi wejścia z wyjściami) z ukrytymi węzłami.0

Kiedy dodajesz funkcje takie jak , jest to podobne do wybierania wag kilku ukrytym węzłom w pojedynczej ukrytej warstwie. Nie ma dokładnie korespondencji , ponieważ modelowanie funkcji takiej jak z sigmoidami może wymagać więcej niż jednego ukrytego neuronu. Kiedy trenujesz sieć neuronową, pozwalasz jej znaleźć własne ukryte ciężary wejściowe do ukrytych, które mogą być lepsze. Może to również zająć więcej czasu i może być niespójne. Możesz zacząć od przybliżenia do regresji logistycznej z dodatkowymi funkcjami i powoli trenować wagi wejściowe do ukrytych, co ostatecznie powinno być lepsze niż regresja logistyczna z dodatkowymi funkcjami. W zależności od problemu czas szkolenia może być nieistotny lub wygórowany. 1 - 1 x 3x311x3

Jedną strategią pośrednią jest wybranie dużej liczby losowych węzłów, podobnie jak w przypadku inicjalizacji sieci neuronowej i naprawienie obciążeń wejściowych do ukrytych. Optymalizacja w stosunku do * wag wyjściowych pozostaje liniowa. Nazywa się to maszyną do ekstremalnego uczenia się . Działa co najmniej tak dobrze, jak oryginalna regresja logistyczna.

Douglas Zare
źródło
1
„Jedna strategia pośrednia polega na wybraniu dużej liczby losowych węzłów, podobnie jak w przypadku inicjalizacji sieci neuronowej i naprawieniu wag wejściowych do ukrytych. Optymalizacja w stosunku do wag * wyjściowych pozostaje liniowa”. => masz na myśli, że w tym przypadku będzie jedno globalne maksimum dla rozwiązania?
Hugh Perkins
1
W przypadku ogólnego losowego wyboru losowych ukrytych węzłów, tak.
Douglas Zare
2
świetny post-zapewniający kontekst dla [LR, LogR, NN, ELM]. Twój komentarz na temat LogR jako pomijanej warstwy NN wydaje się oczywisty po tym, jak został zauważony, ale jest dobrym wglądem.
javadba,
3

Regresja liniowa ma na celu oddzielenie danych, które można oddzielić liniowo, tak, możesz użyć dodatkowych wielomianów trzeciego stopnia>, ale w ten sposób ponownie wskazałeś pewne założenia dotyczące danych, które masz od czasu zdefiniowania struktury funkcji celu. W sieci neuronowej. na ogół masz warstwę wejściową, która tworzy separatory liniowe dla danych, a ukrytą warstwę ORAZ regiony, które graniczą z niektórymi klasami i ostatnią warstwę LUB o wszystkie te regiony. W ten sposób wszystkie dane, które posiadasz, mogą być klasyfikowane w sposób nieliniowy, również wszystkie te procesy przebiegają z wewnętrznie wyuczonymi wagami i zdefiniowanymi funkcjami. Ponadto zwiększenie liczby cech dla regresji liniowej jest przeciwne do „Przekleństwa wymiarowości”. Ponadto niektóre aplikacje wymagają bardziej wyjściowych wyników probabilistycznych niż stałych liczb.

erogol
źródło