Od ponad roku zastanawiam się, wdrażam i stosuję paradygmat Extreme Learning Machine (ELM), a im dłużej to robię, tym bardziej wątpię, czy to naprawdę dobra rzecz. Wydaje mi się jednak, że moja opinia jest sprzeczna ze środowiskiem naukowym, w którym - gdy używa się cytatów i nowych publikacji jako środka - wydaje się, że jest to gorący temat.
ELM został wprowadzony przez Huang i in. glin. około 2003 r. Podstawowa idea jest raczej prosta: zacznij od 2-warstwowej sztucznej sieci neuronowej i losowo przypisz współczynniki w pierwszej warstwie. To przekształca nieliniowy problem optymalizacji, który zwykle jest obsługiwany przez propagację wsteczną, w prosty problem regresji liniowej. Bardziej szczegółowo, dla model jest
Teraz korygowane są tylko wartości (aby zminimalizować utratę błędu kwadratu), natomiast wartości v i k są wybierane losowo. Aby zrekompensować utratę stopni swobody, zwykle sugeruje się użycie dość dużej liczby ukrytych węzłów (tj. Wolnych parametrów w i ).
Z innej perspektywy (nie ten zwykle promowane w literaturze, która pochodzi ze strony sieci neuronowe), cała procedura jest po prostu regresja liniowa, ale gdzie wybrać swoje funkcje bazowe losowo, na przykład
(Istnieje wiele innych opcji oprócz sigmoidów dla funkcji losowych. Na przykład ta sama zasada została zastosowana również przy użyciu radialnych funkcji bazowych).
Z tego punktu widzenia cała metoda staje się prawie zbyt uproszczona, i w tym miejscu zaczynam wątpić, że metoda jest naprawdę dobra (... podczas gdy jej marketing naukowy z pewnością jest). Oto moje pytania:
Pomysł rastrowania przestrzeni wejściowej przy użyciu losowych funkcji bazowych jest, moim zdaniem, dobry dla małych wymiarów. Wydaje mi się, że w wysokich wymiarach nie można znaleźć dobrego wyboru za pomocą losowego wyboru z rozsądną liczbą funkcji podstawowych. Czy zatem ELM ulega degradacji w wysokich wymiarach (z powodu przekleństwa wymiarowości)?
Czy znasz wyniki eksperymentalne potwierdzające / zaprzeczające tej opinii? W powiązanym artykule jest tylko jeden zbiór danych regresji 27-wymiarowej (PYRIM), w którym metoda działa podobnie do SVM (podczas gdy wolałbym zobaczyć porównanie do ANN z propagacją wsteczną)
Mówiąc bardziej ogólnie, chciałbym tutaj przedstawić swoje uwagi dotyczące metody ELM.
źródło
Odpowiedzi:
Twoja intuicja dotycząca używania ELM do problemów wysokowymiarowych jest poprawna, mam na ten temat pewne wyniki, które przygotowuję do publikacji. W przypadku wielu problemów praktycznych dane nie są bardzo nieliniowe, a ELM radzi sobie całkiem dobrze, ale zawsze będą zestawy danych, w których przekleństwo wymiarów oznacza, że szansa na znalezienie właściwej funkcji bazowej z krzywizną dokładnie tam, gdzie jej potrzebujesz, staje się raczej małe, nawet z wieloma wektorami podstawowymi.
Osobiście użyłbym czegoś w rodzaju maszyny wektorowej wspierającej najmniejszych kwadratów (lub sieci radialnej funkcji bazowej) i starałem się wybierać wektory podstawowe spośród tych w zestawie szkoleniowym w zachłanny sposób (patrz np. Mój artykuł , ale były inne / lepsze podejścia, które zostały opublikowane w tym samym czasie, np. w bardzo dobrej książce Scholkopfa i Smoli na temat „Uczenie się z jąder”). Myślę, że lepiej jest obliczyć przybliżone rozwiązanie konkretnego problemu niż dokładne rozwiązanie przybliżonego problemu, a maszyny jądra mają lepsze podstawy teoretyczne (dla stałego jądra; o).
źródło
ELM „uczy się” z danych poprzez analityczne rozwiązywanie wag wyjściowych. Zatem im większe dane, które są wprowadzane do sieci, będą dawały lepsze wyniki. Wymaga to jednak większej liczby ukrytych węzłów. Jeśli ELM jest trenowany z niewielkim błędem lub bez błędu, po otrzymaniu nowego zestawu danych wejściowych nie jest w stanie wygenerować prawidłowego wyniku.
Główną przewagą ELM nad tradycyjną siecią neuronową, taką jak propagacja wsteczna, jest szybki czas treningu. Większość czasu obliczeniowego spędza się na rozwiązaniu ciężaru warstwy wyjściowej, jak wspomniano w papierze Huanga.
źródło