Jaka jest „podstawowa” koncepcja uczenia maszynowego do szacowania parametrów?

19

„Podstawową” ideą statystyki do szacowania parametrów jest maksymalne prawdopodobieństwo . Zastanawiam się, jaki jest odpowiedni pomysł w uczeniu maszynowym.

Qn 1. Czy uczciwie byłoby powiedzieć, że „podstawową” ideą uczenia maszynowego do szacowania parametrów jest: „Funkcje utraty”

[Uwaga: mam wrażenie, że algorytmy uczenia maszynowego często optymalizują funkcję strat i stąd powyższe pytanie.]

Pytanie 2: Czy istnieje literatura, która próbuje wypełnić lukę między statystykami a uczeniem maszynowym?

[Uwaga: Być może poprzez powiązanie funkcji strat z maksymalnym prawdopodobieństwem. (np. OLS jest równoważne maksymalnemu prawdopodobieństwu dla normalnie rozpowszechnianych błędów itp.)]

kjetil b halvorsen
źródło
3
Nie widzę zainteresowania tymi pytaniami dotyczącymi próby uzupełnienia fikcyjnej luki. jaki jest cel tego wszystkiego? ponadto istnieje wiele innych pomysłów, które są fundamentalne w statystyce ... a funkcja straty ma co najmniej 100 lat. czy możesz zmniejszyć takie statystyki? może twoje pytanie dotyczy fundamentalnej koncepcji w analizie danych / statystyce / uczeniu maszynowym, jak to nazywasz ... To pytanie już istnieje i jest zbyt szerokie stats.stackexchange.com/questions/372/… .
robin girard
Cóż, niewiele wiem o uczeniu maszynowym i jego powiązaniach ze statystykami. W każdym razie spójrz na to pytanie: stats.stackexchange.com/questions/6/…, co sugeruje, że przynajmniej podejścia do odpowiedzi na te same pytania są różne. Czy to „nienaturalne” zastanawiać się, czy istnieje między nimi jakiś związek? Tak, zgadzam się, że w statystykach jest wiele pomysłów. Właśnie dlatego mam podstawowe cytaty i ograniczyłem zakres do oszacowania interesujących parametrów.
@Srikant link między czym? zauważ, że naprawdę lubię wyszukiwać połączenia między dobrze zdefiniowanymi obiektami, uważam to za bardzo naturalne.
robin girard
6
Jako prawdopodobnie uczący się maszyny, jestem tutaj, aby powiedzieć, że maksymalizujemy prawdopodobieństwo. Cały czas. Mnóstwo dokumentów z zakresu uczenia maszynowego zaczyna się od „hej, spójrz na moje prawdopodobieństwo, zobacz, jak to rozkłada, patrz, jak maksymalizuję”. Sugerowałbym, że niebezpieczne jest twierdzenie, że jest to podstawowa dyscyplina w zakresie technik wnioskowania. To więcej o tym, na którą konferencję się wybierasz!
Mike Dewar
6
Nie sądzę, by Bayesianie zgodzili się z maksymalnym prawdopodobieństwem jako podstawową ideą statystyki.
Marc Claesen,

Odpowiedzi:

17

Jeśli statystyki służą maksymalizacji prawdopodobieństwa, to uczenie maszynowe polega na minimalizowaniu strat. Ponieważ nie wiesz, jaką stratę poniesiesz w przyszłości, zminimalizujesz przybliżenie, tj. Utratę empiryczną.

Na przykład, jeśli masz zadanie przewidywania i jesteś oceniany na podstawie liczby błędnych klasyfikacji, możesz wyszkolić parametry, aby uzyskany model wygenerował najmniejszą liczbę błędnych klasyfikacji na danych szkoleniowych. „Liczba błędnych klasyfikacji” (tj. Utrata 0-1) jest funkcją trudnej utraty do pracy, ponieważ nie można jej rozróżnić, więc przybliżasz ją płynnym „zastępczym”. Na przykład utrata dziennika jest górną granicą utraty 0-1, więc możesz ją zminimalizować, a to okaże się to samo, co maksymalizacja warunkowego prawdopodobieństwa danych. W przypadku modelu parametrycznego podejście to staje się równoważne z regresją logistyczną.

W zadaniu modelowania strukturalnego i przybliżeniu utraty logarytmicznej straty 0-1 otrzymujesz coś innego niż maksymalne prawdopodobieństwo warunkowe, zamiast tego zmaksymalizujesz iloczyn (warunkowych) marginalnych prawdopodobieństw.

Aby uzyskać lepsze przybliżenie straty, ludzie zauważyli, że model szkolenia w celu zminimalizowania straty i wykorzystanie tej straty jako oszacowania przyszłej straty jest zbyt optymistycznym oszacowaniem. Dlatego w celu dokładniejszej (rzeczywistej przyszłej straty) dodają termin korekty błędu systematycznego do straty empirycznej i minimalizują to, jest to znane jako ustrukturyzowana minimalizacja ryzyka.

W praktyce ustalenie właściwego składnika korekcji błędu systematycznego może być zbyt trudne, dlatego dodajesz wyrażenie „w duchu” terminu korekcji błędu systematycznego, na przykład suma kwadratów parametrów. Ostatecznie prawie wszystkie podejścia do nadzorowanej klasyfikacji parametrycznej w uczeniu maszynowym kończą szkolenie modelu w celu zminimalizowania następujących

jaL.(m(xja,w),yja)+P.(w)

gdzie jest twoim modelem sparametryzowanym przez wektor , przejmuję wszystkie punkty danych , jest pewnym obliczeniowo przybliżeniem twojej prawdziwej straty, a jest pewną korektą / regulacją uprzedzeń semestr w i { x i , y i } L P ( w )mwja{xja,yja}L.P.(w)

Na przykład, jeśli twój , , typowym podejściem byłoby pozwolenie , , i wybierz poprzez krzyżową weryfikację y { - 1 , 1 } m ( x ) = znak ( w x ) L ( m ( x ) , y ) = - log ( y × ( x w ) ) P ( w ) = q × ( w w )x{-1,1}rey{-1,1}m(x)=znak(wx)L.(m(x),y)=-log(y×(xw))P.(w)=q×(ww)q

Jarosław Bułatow
źródło
3
Chciałbym zobaczyć, jak ta strata minimalizuje się w klastrowaniu, kNN lub losowych paprociach ...
Cóż, aby scharakteryzować funkcję straty dla najbliższego sąsiada k-średnich, zobacz odpowiedni podrozdział (2.5) tego artykułu: hpl.hp.com/conferences/icml2003/papers/21.pdf
John L. Taylor
@John Wciąż łączy to cele z powodami. W dużym stopniu możesz wyjaśnić każdy algorytm w kategoriach minimalizacji czegoś i nazwać to „stratą”. kNN nie został wymyślony w taki sposób: chłopaki, myślałem o takiej stracie, zoptymalizujmy ją i zobaczmy, co się stanie !; raczej chłopaki, powiedzmy, że decyzja jest mniej ciągła w przestrzeni cech, niż gdybyśmy mieli dobrą miarę podobieństwa ... i tak dalej.
2
„Jeśli w statystykach chodzi o maksymalizację prawdopodobieństwa, to w uczeniu maszynowym chodzi o zminimalizowanie strat”. Nie zgadzam się z twoim założeniem - zdecydowanie i w całości. Może to była prawda statystyki w 1920 roku, ale na pewno nie jest dzisiaj.
JMS
19

Dam szczegółową odpowiedź. Może dostarczyć więcej cytatów na żądanie, chociaż nie jest to tak naprawdę kontrowersyjne.

  • Statystyki to nie tylko maksymalizacja prawdopodobieństwa (dziennika). To przekleństwo dla zasadniczych bayesian, którzy po prostu aktualizują swoje plakaty lub propagują swoje przekonania za pomocą odpowiedniego modelu.
  • Wiele statystyk dotyczy minimalizacji strat. Podobnie jest w przypadku uczenia maszynowego. Empiryczna minimalizacja strat ma inne znaczenie w ML. Aby uzyskać jasny, narracyjny pogląd, zapoznaj się z „Naturą uczenia statystycznego” Vapnika
  • Uczenie maszynowe to nie tylko minimalizacja strat. Po pierwsze, ponieważ w ML jest wielu bayesianów; po drugie, ponieważ wiele aplikacji w ML dotyczy uczenia się w czasie i przybliżonego DP. Jasne, istnieje funkcja celu, ale ma ona zupełnie inne znaczenie niż w uczeniu się „statystycznym”.

Nie sądzę, że istnieje luka między polami, tylko wiele różnych podejść, które w pewnym stopniu się pokrywają. Nie czuję potrzeby przekształcania ich w systematyczne dyscypliny o dobrze określonych różnicach i podobieństwach, a biorąc pod uwagę tempo ich ewolucji, myślę, że i tak jest to skazane na niepowodzenie przedsięwzięcie.

niezadowolony
źródło
8

Nie mogę opublikować komentarza (odpowiedniego miejsca dla tego komentarza), ponieważ nie mam wystarczającej reputacji, ale odpowiedź zaakceptowana przez właściciela pytania jako najlepsza nie trafia w sedno.

„Jeśli statystyki służą maksymalizacji prawdopodobieństwa, to uczenie maszynowe polega na minimalizowaniu strat”.

Prawdopodobieństwo to funkcja straty. Maksymalizacja prawdopodobieństwa jest tym samym, co minimalizacja funkcji straty: odchylenie, które jest zaledwie -2 razy większe od funkcji logarytmu prawdopodobieństwa. Podobnie znalezienie rozwiązania najmniejszych kwadratów polega na zminimalizowaniu funkcji straty opisującej resztkową sumę kwadratów.

Zarówno ML, jak i statystyki używają algorytmów do optymalizacji dopasowania niektórych funkcji (w najszerszym ujęciu) do danych. Optymalizacja niekoniecznie obejmuje minimalizację niektórych funkcji strat.

Thylacoleo
źródło
1
Dobra uwaga, wciąż główne różnice są gdzie indziej; po pierwsze, statystyki dotyczą dopasowania modelu do danych, które ma, ML dotyczą dopasowania modelu do danych, które będą mieć; po drugie, statystyki zakładają, że obserwowany proces jest w pełni napędzany przez żenująco trywialny „ukryty” model, który chcą odkryć, podczas gdy ML próbuje, aby niektóre na tyle skomplikowane, że były niezależne od problemu, zachowywały się jak rzeczywistość.
@mbq. To dość ostra karykatura statystyk. Pracowałem w pięciu wydziałach statystyki uniwersyteckiej i nie sądzę, że spotkałem nikogo, kto by pomyślał o takich statystykach.
Rob Hyndman
1
@Rob Caricature? Myślę, że dzięki temu statystyki są piękne! Zakładasz te wszystkie gaussie i liniowości, a to po prostu działa - i istnieje powód, który nazywa się ekspansją Taylora. Świat jest piekłem złożonym, ale w przybliżeniu liniowym. (co często stanowi 90% złożoności) jest żenująco trywialne. ML (i statystyki nieparametryczne) pojawia się w tych kilku procentach sytuacji, w których potrzebne jest bardziej subtelne podejście. To nie jest po prostu darmowy lunch - jeśli chcesz twierdzeń, potrzebujesz założeń; jeśli nie chcesz założeń, potrzebujesz przybliżonych metod.
@mbq. Słusznie. Musiałem źle zinterpretować twój komentarz.
Rob Hyndman,
4

Odpowiedź jest trywialna - w uczeniu maszynowym nie ma oszacowania parametrów! Nie zakładamy, że nasze modele są równoważne z niektórymi modelami ukrytego tła; traktujemy zarówno rzeczywistość, jak i model jako czarne skrzynki i staramy się potrząsnąć pudełkiem modelu (trenuj zgodnie z oficjalną terminologią), aby jego wynik był podobny do tego z pudełka rzeczywistości.

Koncepcja nie tylko prawdopodobieństwa, ale całego wyboru modelu na podstawie danych treningowych zostaje zastąpiona przez optymalizację dokładności (niezależnie od tego, co zdefiniowano; w zasadzie dobroci w pożądanym zastosowaniu) na niewidzialnych danych; pozwala to zoptymalizować zarówno precyzję, jak i przywołanie w sprzężony sposób. Prowadzi to do koncepcji zdolności do uogólnienia, która jest osiągana na różne sposoby w zależności od typu ucznia.

Odpowiedź na pytanie drugie zależy w dużej mierze od definicji; wciąż uważam, że statystyki nieparametryczne to coś, co łączy te dwa elementy.


źródło
Nie jestem pewien, czy jest to całkowicie poprawne. W jakim sensie metody uczenia maszynowego działają bez szacowania parametrów (w zestawie modeli parametrycznych lub bez dystrybucji)?
John L. Taylor,
1
Szacujesz / obliczasz coś (dokładny termin może być inny). Rozważmy na przykład sieć neuronową. Czy nie obliczasz wag dla sieci, gdy próbujesz coś przewidzieć? Ponadto, gdy mówisz, że trenujesz, aby dopasować wydajność do rzeczywistości, wydaje się, że domyślnie mówisz o jakiejś funkcji utraty.
@John, @Srikant Uczniowie mają parametry, ale nie są to parametry w sensie statystycznym. Rozważ regresję liniową y = a x (bez wolnego terminu dla symp.). a jest parametrem, który pasują metody statystyczne, przyjmując założenie, że y = a x. Uczenie maszynowe po prostu spróbuje wygenerować x, gdy zostanie poproszony o x w zakresie pociągu (ma to sens, ponieważ nie zakłada, że ​​y = a x); w tym celu może pasować setki parametrów.
3
[wymagany cytat]. Innymi słowy, intrygująca odpowiedź, chociaż nie sprząta się (przynajmniej) dużą ilością literatury ML.
gappy
1
Klasycznym jest Breiman „Modelowanie statystyczne: dwie kultury”.
2

Nie sądzę, aby istniała podstawowa koncepcja dotycząca szacowania parametrów w uczeniu maszynowym. Tłum ML z radością zmaksymalizuje prawdopodobieństwo lub ryzyko tylne, o ile algorytmy są wydajne i przewidują „dokładnie”. Nacisk kładziony jest na obliczenia, a wyniki statystyki są szeroko stosowane.

Jeśli szukasz podstawowych pomysłów w ogóle, to w obliczeniowej teorii uczenia się PAC ma kluczowe znaczenie; w statystycznej teorii uczenia się strukturalna minimalizacja ryzyka ; i istnieją inne obszary (na przykład, patrz post Science Prediction autorstwa Johna Langforda).

W przypadku pomostowych statystyk / ML podział wydaje się przesadzony. Podobało mi się odpowiedź Gappy'ego na pytanie „Dwie kultury”.

ars
źródło
Tłum statystyczny
1

Możesz przepisać problem maksymalizacji prawdopodobieństwa jako problem minimalizacji strat, definiując stratę jako prawdopodobieństwo dziennika ujemnego. Jeżeli prawdopodobieństwo jest iloczynem niezależnych prawdopodobieństw lub gęstości prawdopodobieństwa, strata będzie sumą niezależnych warunków, które można skutecznie obliczyć. Ponadto, jeśli zmienne stochastyczne są normalnie rozmieszczone, odpowiadający problem minimalizacji strat będzie problemem najmniejszych kwadratów.

Jeśli możliwe jest stworzenie problemu minimalizacji strat poprzez przepisanie maksymalizacji prawdopodobieństwa, powinno to być preferowane niż tworzenie problemu minimalizacji strat od zera, ponieważ spowoduje to problem minimalizacji strat, który (mam nadzieję) jest większy teoretycznie założony i mniej ad hoc. Na przykład wagi, takie jak w przypadku ważonych najmniejszych kwadratów, dla których zwykle trzeba oszacować wartości, po prostu wyjdą z procesu przepisywania oryginalnego problemu maksymalizacji prawdopodobieństwa i już mają (miejmy nadzieję) optymalne wartości.

Cześć Żegnaj
źródło