„Podstawową” ideą statystyki do szacowania parametrów jest maksymalne prawdopodobieństwo . Zastanawiam się, jaki jest odpowiedni pomysł w uczeniu maszynowym.
Qn 1. Czy uczciwie byłoby powiedzieć, że „podstawową” ideą uczenia maszynowego do szacowania parametrów jest: „Funkcje utraty”
[Uwaga: mam wrażenie, że algorytmy uczenia maszynowego często optymalizują funkcję strat i stąd powyższe pytanie.]
Pytanie 2: Czy istnieje literatura, która próbuje wypełnić lukę między statystykami a uczeniem maszynowym?
[Uwaga: Być może poprzez powiązanie funkcji strat z maksymalnym prawdopodobieństwem. (np. OLS jest równoważne maksymalnemu prawdopodobieństwu dla normalnie rozpowszechnianych błędów itp.)]
machine-learning
maximum-likelihood
loss-functions
pac-learning
kjetil b halvorsen
źródło
źródło
Odpowiedzi:
Jeśli statystyki służą maksymalizacji prawdopodobieństwa, to uczenie maszynowe polega na minimalizowaniu strat. Ponieważ nie wiesz, jaką stratę poniesiesz w przyszłości, zminimalizujesz przybliżenie, tj. Utratę empiryczną.
Na przykład, jeśli masz zadanie przewidywania i jesteś oceniany na podstawie liczby błędnych klasyfikacji, możesz wyszkolić parametry, aby uzyskany model wygenerował najmniejszą liczbę błędnych klasyfikacji na danych szkoleniowych. „Liczba błędnych klasyfikacji” (tj. Utrata 0-1) jest funkcją trudnej utraty do pracy, ponieważ nie można jej rozróżnić, więc przybliżasz ją płynnym „zastępczym”. Na przykład utrata dziennika jest górną granicą utraty 0-1, więc możesz ją zminimalizować, a to okaże się to samo, co maksymalizacja warunkowego prawdopodobieństwa danych. W przypadku modelu parametrycznego podejście to staje się równoważne z regresją logistyczną.
W zadaniu modelowania strukturalnego i przybliżeniu utraty logarytmicznej straty 0-1 otrzymujesz coś innego niż maksymalne prawdopodobieństwo warunkowe, zamiast tego zmaksymalizujesz iloczyn (warunkowych) marginalnych prawdopodobieństw.
Aby uzyskać lepsze przybliżenie straty, ludzie zauważyli, że model szkolenia w celu zminimalizowania straty i wykorzystanie tej straty jako oszacowania przyszłej straty jest zbyt optymistycznym oszacowaniem. Dlatego w celu dokładniejszej (rzeczywistej przyszłej straty) dodają termin korekty błędu systematycznego do straty empirycznej i minimalizują to, jest to znane jako ustrukturyzowana minimalizacja ryzyka.
W praktyce ustalenie właściwego składnika korekcji błędu systematycznego może być zbyt trudne, dlatego dodajesz wyrażenie „w duchu” terminu korekcji błędu systematycznego, na przykład suma kwadratów parametrów. Ostatecznie prawie wszystkie podejścia do nadzorowanej klasyfikacji parametrycznej w uczeniu maszynowym kończą szkolenie modelu w celu zminimalizowania następujących
gdzie jest twoim modelem sparametryzowanym przez wektor , przejmuję wszystkie punkty danych , jest pewnym obliczeniowo przybliżeniem twojej prawdziwej straty, a jest pewną korektą / regulacją uprzedzeń semestr w i { x i , y i } L P ( w )m w ja { xja, yja} L. P.( w )
Na przykład, jeśli twój , , typowym podejściem byłoby pozwolenie , , i wybierz poprzez krzyżową weryfikację y ∈ { - 1 , 1 } m ( x ) = znak ( w ⋅ x ) L ( m ( x ) , y ) = - log ( y × ( x ⋅ w ) ) P ( w ) = q × ( w ⋅ w )x ∈ { - 1 , 1 }re y∈ { - 1 , 1 } m (x)= znak (w⋅x) L ( m ( x ) , y) = - log( y× ( x ⋅ w ) ) P.( w ) = q× ( w ⋅ w ) q
źródło
Dam szczegółową odpowiedź. Może dostarczyć więcej cytatów na żądanie, chociaż nie jest to tak naprawdę kontrowersyjne.
Nie sądzę, że istnieje luka między polami, tylko wiele różnych podejść, które w pewnym stopniu się pokrywają. Nie czuję potrzeby przekształcania ich w systematyczne dyscypliny o dobrze określonych różnicach i podobieństwach, a biorąc pod uwagę tempo ich ewolucji, myślę, że i tak jest to skazane na niepowodzenie przedsięwzięcie.
źródło
Nie mogę opublikować komentarza (odpowiedniego miejsca dla tego komentarza), ponieważ nie mam wystarczającej reputacji, ale odpowiedź zaakceptowana przez właściciela pytania jako najlepsza nie trafia w sedno.
„Jeśli statystyki służą maksymalizacji prawdopodobieństwa, to uczenie maszynowe polega na minimalizowaniu strat”.
Prawdopodobieństwo to funkcja straty. Maksymalizacja prawdopodobieństwa jest tym samym, co minimalizacja funkcji straty: odchylenie, które jest zaledwie -2 razy większe od funkcji logarytmu prawdopodobieństwa. Podobnie znalezienie rozwiązania najmniejszych kwadratów polega na zminimalizowaniu funkcji straty opisującej resztkową sumę kwadratów.
Zarówno ML, jak i statystyki używają algorytmów do optymalizacji dopasowania niektórych funkcji (w najszerszym ujęciu) do danych. Optymalizacja niekoniecznie obejmuje minimalizację niektórych funkcji strat.
źródło
Odpowiedź jest trywialna - w uczeniu maszynowym nie ma oszacowania parametrów! Nie zakładamy, że nasze modele są równoważne z niektórymi modelami ukrytego tła; traktujemy zarówno rzeczywistość, jak i model jako czarne skrzynki i staramy się potrząsnąć pudełkiem modelu (trenuj zgodnie z oficjalną terminologią), aby jego wynik był podobny do tego z pudełka rzeczywistości.
Koncepcja nie tylko prawdopodobieństwa, ale całego wyboru modelu na podstawie danych treningowych zostaje zastąpiona przez optymalizację dokładności (niezależnie od tego, co zdefiniowano; w zasadzie dobroci w pożądanym zastosowaniu) na niewidzialnych danych; pozwala to zoptymalizować zarówno precyzję, jak i przywołanie w sprzężony sposób. Prowadzi to do koncepcji zdolności do uogólnienia, która jest osiągana na różne sposoby w zależności od typu ucznia.
Odpowiedź na pytanie drugie zależy w dużej mierze od definicji; wciąż uważam, że statystyki nieparametryczne to coś, co łączy te dwa elementy.
źródło
Nie sądzę, aby istniała podstawowa koncepcja dotycząca szacowania parametrów w uczeniu maszynowym. Tłum ML z radością zmaksymalizuje prawdopodobieństwo lub ryzyko tylne, o ile algorytmy są wydajne i przewidują „dokładnie”. Nacisk kładziony jest na obliczenia, a wyniki statystyki są szeroko stosowane.
Jeśli szukasz podstawowych pomysłów w ogóle, to w obliczeniowej teorii uczenia się PAC ma kluczowe znaczenie; w statystycznej teorii uczenia się strukturalna minimalizacja ryzyka ; i istnieją inne obszary (na przykład, patrz post Science Prediction autorstwa Johna Langforda).
W przypadku pomostowych statystyk / ML podział wydaje się przesadzony. Podobało mi się odpowiedź Gappy'ego na pytanie „Dwie kultury”.
źródło
Możesz przepisać problem maksymalizacji prawdopodobieństwa jako problem minimalizacji strat, definiując stratę jako prawdopodobieństwo dziennika ujemnego. Jeżeli prawdopodobieństwo jest iloczynem niezależnych prawdopodobieństw lub gęstości prawdopodobieństwa, strata będzie sumą niezależnych warunków, które można skutecznie obliczyć. Ponadto, jeśli zmienne stochastyczne są normalnie rozmieszczone, odpowiadający problem minimalizacji strat będzie problemem najmniejszych kwadratów.
Jeśli możliwe jest stworzenie problemu minimalizacji strat poprzez przepisanie maksymalizacji prawdopodobieństwa, powinno to być preferowane niż tworzenie problemu minimalizacji strat od zera, ponieważ spowoduje to problem minimalizacji strat, który (mam nadzieję) jest większy teoretycznie założony i mniej ad hoc. Na przykład wagi, takie jak w przypadku ważonych najmniejszych kwadratów, dla których zwykle trzeba oszacować wartości, po prostu wyjdą z procesu przepisywania oryginalnego problemu maksymalizacji prawdopodobieństwa i już mają (miejmy nadzieję) optymalne wartości.
źródło