Co to są prawidłowości i regularyzacja?

12

Coraz częściej słyszę te słowa, ucząc się uczenia maszynowego. W rzeczywistości niektórzy ludzie zdobyli medal Fieldsa, pracując nad prawidłowością równań. Sądzę więc, że jest to termin, który przenosi się z fizyki statystycznej / matematyki na uczenie maszynowe. Oczywiście wiele osób, o które pytałem, nie mogło tego intuicyjnie wyjaśnić.

Wiem, że metody takie jak porzucenie pomagają w regularyzacji (=> mówią, że zmniejsza to nadmierne dopasowanie, ale tak naprawdę nie rozumiem, co to jest: jeśli tylko zmniejsza to nadmierne dopasowanie, dlaczego po prostu nie nazwać tego metodami zapobiegającymi nadmiernemu dopasowaniu => coś więcej myślę, stąd to pytanie).

Byłbym bardzo wdzięczny (myślę, że naiwna społeczność ML też byłaby!), Gdybyś mógł wyjaśnić:

Jak definiujesz prawidłowość? Co to jest prawidłowość?
Czy regularyzacja jest sposobem na zapewnienie regularności? tzn. wychwytywanie prawidłowości?
Dlaczego metody zestawiania, takie jak porzucanie, metody normalizacji, twierdzą, że wykonują regularyzację?
Dlaczego te (prawidłowość / regularność) pojawiają się w uczeniu maszynowym?

Bardzo dziękuję za Twoją pomoc.

machine-learning self-study terminology regularization definition Rafael
źródło

8

Regularność jest stosowana w prawie wszystkich algorytmach uczenia maszynowego, w których próbujemy uczyć się na podstawie skończonych próbek danych szkoleniowych.

Spróbuję pośrednio odpowiedzieć na twoje szczegółowe pytania, wyjaśniając genezę pojęcia regularyzacji. Pełna teoria jest o wiele bardziej szczegółowa i to wyjaśnienie nie powinno być interpretowane jako kompletne, ale ma na celu po prostu wskazanie właściwego kierunku dalszej eksploracji. Ponieważ twoim głównym celem jest intuicyjne zrozumienie regularyzacji, streściłem i bardzo uprościłem następujące wyjaśnienie z rozdziału 7 „Sieci neuronowe i maszyny uczenia się”, wydanie trzecie autorstwa Simona Haykina (i pominęłem przy tym kilka szczegółów).

Powróćmy do nadzorowanego problemu uczenia się ze zmiennymi niezależnymi i zmienną zależną próbując znaleźć funkcję która będzie w stanie „zamapować” wejście X na wyjście Y. $x_i$ $y_i$ $f$

Mówiąc dalej, zrozummy terminologię Hadamarda dotyczącą „dobrze postawionego” problemu - problem jest dobrze postawiony, jeśli spełnia następujące trzy warunki:

Dla każdego wejścia istnieje wyjście . $x_i$ $y_i$
Dla pary wejść i , wtedy i tylko wtedy, gdy . $x_1$ $x_2$ $f(x_1) = f(x_2)$ $x_1 = x_2$
Odwzorowanie jest ciągłe (kryteria stabilności) $f$

W przypadku nauki nadzorowanej warunki te mogą zostać naruszone, ponieważ:

Dla danego wejścia może nie istnieć odrębny wynik.
W próbkach treningowych może nie być wystarczającej ilości informacji, aby stworzyć unikalne mapowanie przepływów międzygałęziowych (ponieważ uruchomienie algorytmu uczenia się na różnych próbkach treningowych powoduje różne funkcje mapowania).
Hałas w danych zwiększa niepewność procesu rekonstrukcji, co może wpłynąć na jego stabilność.

Aby rozwiązać takie „źle postawione” problemy, Tichonow zaproponował metodę regularyzacji w celu ustabilizowania rozwiązania poprzez włączenie nieujemnej funkcji, która zawiera wcześniejsze informacje o rozwiązaniu.

Najczęstszą formą wcześniejszych informacji jest założenie, że funkcja mapowania przepływów międzygałęziowych jest płynna - tj. Podobne dane wejściowe dają podobne wyniki.

Teoria regularyzacji Tikhnova dodaje termin regularyzacji do funkcji kosztu (funkcja straty do zminimalizowania), która obejmuje parametr regularyzacji i przyjętą formę odwzorowania . Wartość jest wybierana między 0 a . Wartość 0 oznacza, że rozwiązanie jest określane całkowicie na podstawie próbek szkoleniowych; podczas gdy wartość oznacza, że przykłady szkolenia są niewiarygodne. $\lambda$ $f$ $\lambda$ $\infty$ $\infty$

Zatem parametr regularyzacji jest wybierany i optymalizowany w celu osiągnięcia pożądanej równowagi między odchyleniem modelu a wariancją modelu poprzez włączenie do niego odpowiedniej ilości wcześniejszych informacji. $\lambda$

Oto niektóre przykłady takich kosztów kosztów regulowanych:

Regresja liniowa:

$J(\theta) = \frac 1m \sum_{i=1}^m [ h_\theta(x^i) - y^i]^2 + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2$

Regresja logistyczna:

$J(\theta) = \frac 1m \sum_{i=1}^m [ -y^i log(h_\theta(x^i)) - (1-y^i)log(1 - h_\theta(x^i))] + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2$

Gdzie to współczynniki, które zidentyfikowaliśmy dla , a jest oszacowaniem . $\theta$ $x$ $h_\theta(x)$ $y$

Drugim terminem sumowania w każdym przykładzie jest termin regularyzacji. Ponieważ termin ten jest zawsze wartością nieujemną, uniemożliwia optymalizatorowi osiągnięcie globalnych minimów dla funkcji kosztu. Przedstawiona tutaj forma terminu to regularyzacja . Istnieje wiele odmian w postaci funkcji regularyzacji, najczęściej stosowanymi formami są: lasso, siatka elastyczna i regresja kalenicowa. Mają one swoje zalety i wady, które pomagają zdecydować, gdzie najlepiej je zastosować. $L_2$

Efektem netto zastosowania regularyzacji jest zmniejszenie złożoności modelu, co zmniejsza nadmierne dopasowanie. Inne podejścia do regularyzacji (niewymienione w powyższych przykładach) obejmują modyfikacje modeli strukturalnych, takie jak drzewa regresji / klasyfikacji, drzewa wzmocnione itp. Poprzez usunięcie węzłów w celu uproszczenia drzew. Niedawno zastosowano to w tak zwanym „głębokim uczeniu się” poprzez porzucenie połączeń między neuronami w sieci neuronowej.

Konkretną odpowiedzią na trzeci kwartał jest to, że niektóre metody zestawiania, takie jak Losowy Las (lub podobne schematy głosowania), osiągają regularyzację ze względu na swoją nieodłączną metodę, tj. Głosowanie i wybieranie odpowiedzi z kolekcji nieregulowanych Drzew. Mimo, że poszczególne drzewa się pokrywają, proces „uśredniania” ich wyniku powstrzymuje zespół od przeregulowania do zestawu treningowego.

EDYTOWAĆ:

Pojęcie regularności należy do teorii zbiorów aksjomatycznych, możesz zapoznać się ze wskazówkami w tym artykule - en.wikipedia.org/wiki/Aksjomat_regularności i rozwinąć ten temat, jeśli interesują Cię szczegóły.

W przypadku regularyzacji dla sieci neuronowych: Podczas dostosowywania wag podczas działania algorytmu wstecznej propagacji, termin regularyzacji jest dodawany do funkcji kosztu w taki sam sposób, jak przykłady regresji liniowej i logistycznej. Tak więc dodanie terminu regularyzacji uniemożliwia propagacji wstecznej osiągnięcie globalnych minimów.

Artykuł opisujący normalizację partii dla sieci neuronowych brzmi - Normalizacja partii: przyspieszenie uczenia głębokiej sieci przez zmniejszenie wewnętrznego przesunięcia współzmiennej, Ioffe, Szegedy, 2015. Wiadomo, że propagowanie wsteczne w celu trenowania sieci neuronowej działa lepiej, gdy zmienne wejściowe są znormalizowane. W tym artykule autorzy zastosowali normalizację do każdej mini-partii stosowanej w stochastycznym spadku gradientu, aby uniknąć problemu „zanikania gradientów” podczas szkolenia wielu warstw sieci neuronowej. Algorytm opisany w ich pracy traktuje średnią i wariancję obliczoną w każdej partii dla każdej warstwy aktywacji jako kolejny zestaw parametrów zoptymalizowanych w mini-partii SGD (oprócz wag NN). Aktywacje są następnie znormalizowane przy użyciu całego zestawu treningowego. Możesz zapoznać się z ich dokumentem, aby uzyskać szczegółowe informacje na temat tego algorytmu. Korzystając z tej metody, udało im się uniknąć rezygnacji z regularyzacji, a zatem twierdzą, że jest to inny rodzaj regularyzacji.

Sandeep S. Sandhu
źródło

dzięki za świetną odpowiedź. Czy możesz matematycznie wyjaśnić, w jaki sposób metody takie jak normalizacja osiągają normalizację? W przemówieniu Goodfellow powiedział, że wszystko, co można odróżnić, może działać jako regularyzator sieci neuronowej. Czy wiesz również, jakie są prawidłowości? czy oznaczają tylko wzorce, czy kryje się za tym matematyka? dzięki jeszcze raz.

Rafael

Dziękuję za odpowiedź. Nie pamiętam rozmowy. W sieciach neuronowych dodajemy warstwy, takie jak normalizacja partii. Chciałem wiedzieć, jak motyka przyczynia się do regularyzacji?

Rafael

Edytowane, aby odpowiedzieć na Twój komentarz, a także dodać odpowiedzi podane we wcześniejszych komentarzach.

Sandeep S. Sandhu

3

Pytanie 1

Nie znam żadnej kanonicznej definicji, a twoje pytania sugerują, że termin ten ma różne znaczenia. Zacznijmy od prostych przykładów (które odpowiedzą na pytanie 2).

pytanie 2

Regresji grzbiet może być dobrym punktem wyjścia. Jest to metoda regularyzacji, która omija problem podniesiony przez pojedynczą macierz .

Jednak „parametr regularyzacji” zdefiniowany w metodach zwiększania gradientu (na przykład) ma na celu zapewnienie niskiej złożoności modelu.

pytanie 3

Normalizacja jako uregulowanie ma inne znaczenie (i to jest dość mylące terminologia). Zmienia złożony problem „z punktu widzenia gradientu opadania” w coś prostszego. Chociaż kalibracja sieci neuronowej nie jest potrzebna, naprawdę pomaga podczas kalibracji. (Należy jednak pamiętać, że gdybyśmy mogli znaleźć globalny zakres arbitralnych funkcji, normalizacja nie byłaby potrzebna)

Pytanie 4

Regulararyzacja (jako sposób na zmniejszenie złożoności modelu) służy do zmniejszenia przeładowania. Im mniej skomplikowany jest model, tym mniej prawdopodobne jest, że się on dopasuje.

Na bok

S. Watanabe rygorystycznie używa tej terminologii w swoich badaniach.

RUser4512
źródło

Co to są prawidłowości i regularyzacja?

Odpowiedzi: