Generatywne a dyskryminujące

153

Wiem, że generatywny oznacza „oparty na P.(x,r) ”, a dyskryminujący oznacza „oparty na P.(r|x) ”, ale jestem zdezorientowany w kilku kwestiach:

  • Wikipedia (+ wiele innych trafień w sieci) klasyfikuje takie rzeczy jak maszyny SVM i drzewa decyzyjne jako dyskryminujące. Ale nie mają nawet probabilistycznych interpretacji. Co oznacza tutaj dyskryminacja? Czy dyskryminacja właśnie oznacza coś, co nie jest generatywne?

  • Naiwny Bayes (NB) jest generatywny, ponieważ przechwytuje P.(x|r) i P.(r) , a zatem masz P.(x,r) (a także P.(r|x) ). Czy nie jest trywialne, aby powiedzmy, że regresja logistyczna (chłopiec plakatów modeli dyskryminujących) jest „generatywna” poprzez proste obliczenie P.(x) w podobny sposób (takie samo założenie niezależności jak NB, takie, że P.(x)=P.(x0)P.(x1)...P.(xre) , gdzie MLE dlaP.(xja) to tylko częstotliwości)?

  • Wiem, że modele dyskryminacyjne przewyższają generatywne. Jakie praktyczne zastosowanie ma praca z modelami generatywnymi? Przytaczana jest możliwość generowania / symulacji danych, ale kiedy to nastąpi? Ja osobiście mam tylko doświadczenie z regresją, klasyfikacją, współpracą. filtrowanie ustrukturyzowanych danych, więc czy zastosowania są dla mnie nieistotne? Argument „brakujących danych” ( P.(xja|r) za brakujące xja ) wydaje się dawać przewagę dzięki danym szkoleniowym (kiedy faktycznie znasz r i nie musisz marginalizować nad P.(r) aby uzyskać stosunkowo głupi , Które mogłeś szacuje bezpośrednio w każdym razie), a nawet wtedy przypisanie jest znacznie bardziej elastyczny (można przewidzieć na podstawie nie tylko na y jednak inna x I „s również).P.(xja)rxja

  • Co z całkowicie sprzecznymi cytatami z Wikipedii? „modele generatywne są zazwyczaj bardziej elastyczne niż modele dyskryminacyjne w wyrażaniu zależności w złożonych zadaniach uczenia się” w porównaniu do „modele dyskryminacyjne mogą ogólnie wyrażać bardziej złożone relacje między zmiennymi obserwowanymi a docelowymi”

Podobne pytanie, które skłoniło mnie do myślenia.

Yang
źródło
5
(+1) Myślę, że terminologia jest myląca i myślę, że model jest generatywny dla rozkładu warunkowego w przeciwieństwie do SVM, powiedzmy, że tylko modeluje aspekty tego rozkładu warunkowego dla czysto dyskryminacyjnego cel, powód. Jak pokazuje twój drugi punkt, model P ( y | x ) można rozszerzyć, aby stał się modelem w pełni generatywnym. Rozróżnienie jest istotne z punktu widzenia uczenia się, ponieważ możemy albo modelować P ( x , y ) i obliczyć P ( y | x ), albo możemy modelowaćP.(r|x)P.(r|x)P.(x,r)P.(r|x) . P.(r|x)
NRH
2
Nie sądzę, aby twoje stwierdzenie dotyczące SVM było prawdziwe: „Ale nie mają one nawet probabilistycznych interpretacji”. Wszystko, co ma funkcję straty, może zostać zinterpretowane w sensie probabilistycznym poprzez znalezienie konfiguracji MAP odpowiedniego pliku PDF.
gmatt

Odpowiedzi:

135

Zasadnicza różnica między modelami i modeli dyskryminacyjnych generatywnych jest:

  • Modele dyskryminacyjne uczą się (twardej lub miękkiej) granicy między klasami
  • Modele generatywne modelują rozkład poszczególnych klas

Aby odpowiedzieć na bezpośrednie pytania:

  • SVM i drzewa decyzyjne są dyskryminujące, ponieważ uczą się wyraźnych granic między klasami. SVM jest klasyfikatorem maksymalnego marginesu, co oznacza, że ​​poznaje granicę decyzji, która maksymalizuje odległość między próbkami dwóch klas, biorąc pod uwagę jądro. Odległość między próbką a wyuczoną granicą decyzji może być wykorzystana do uczynienia SVM „miękkim” klasyfikatorem. ID poznają granicę decyzji, rekurencyjnie dzieląc przestrzeń w sposób maksymalizujący przyrost informacji (lub inne kryterium).

  • W ten sposób można dokonać generatywnej formy regresji logistycznej. Pamiętaj jednak, że nie używasz pełnego modelu generatywnego do podejmowania decyzji klasyfikacyjnych.

  • W zależności od zastosowania istnieje wiele korzyści, jakie mogą zaoferować modele generatywne. Załóżmy, że masz do czynienia z dystrybucjami niestacjonarnymi, w których dane testowe online mogą być generowane przez inne podstawowe dystrybucje niż dane szkoleniowe. Zazwyczaj łatwiej jest wykryć zmiany dystrybucji i odpowiednio zaktualizować model generatywny, niż zrobić to dla granicy decyzji w maszynie SVM, szczególnie jeśli aktualizacje online muszą być nadzorowane. Modele dyskryminacyjne również zasadniczo nie działają w celu wykrycia wartości odstających, chociaż generalnie działają modele generatywne. To, co najlepsze dla konkretnej aplikacji, powinno oczywiście zostać ocenione na podstawie aplikacji.

  • (Ten cytat jest zawiły, ale myślę, że to właśnie próbuje powiedzieć). Modele generatywne są zazwyczaj określane jako probabilistyczne modele graficzne, które oferują bogatą reprezentację relacji niezależności w zbiorze danych. Modele dyskryminacyjne nie oferują tak wyraźnych reprezentacji relacji między cechami i klasami w zbiorze danych. Zamiast wykorzystywać zasoby do pełnego modelowania każdej klasy, skupiają się na bogatym modelowaniu granicy między klasami. Biorąc pod uwagę taką samą pojemność (powiedzmy, bity w programie komputerowym wykonującym model), model dyskryminacyjny może więc dawać bardziej złożone reprezentacje tej granicy niż model generatywny.

benhamner
źródło
(k2))kk
63

(odpowiedź hamnera jest świetna, więc po prostu prześlij moją odpowiedź z MetaOptimize w celu uzyskania kompletności.)

P.(X|Y)P.(Y)P.(X,Y)

Porównaj, na przykład, modele mieszanki Gaussa i grupowanie k-średnich. W tym pierwszym mamy ładny model probabilistyczny dotyczący sposobu generowania punktów (wybierz element z pewnym prawdopodobieństwem, a następnie wyślij punkt, próbkując z rozkładu Gaussa tego elementu), ale tak naprawdę nic nie możemy powiedzieć o tym drugim.

P.(Y|X)P.(X|Y)P.(Y)

1: Algorytmy dyskryminujące pozwalają klasyfikować punkty bez dostarczania modelu faktycznego generowania punktów. Mogą to być:

  • P.(Y|X)
  • lub non-probabilistyczne algorytmy, które próbują dowiedzieć się bezpośrednio od mapowania punktów do klas (np perceptron i SVMs prostu daje oddzielający hiperpłaszczyznę, ale nie model generowania nowych punktów).

Tak więc, klasyfikatory dyskryminujące to wszelkie klasyfikatory, które nie są generatywne.

Innym sposobem myślenia na ten temat jest to, że algorytmy generatywne przyjmują pewne założenia strukturalne w twoim modelu , ale algorytmy dyskryminacyjne przyjmują mniej założeń. Na przykład Naive Bayes zakłada warunkową niezależność twoich funkcji, podczas gdy regresja logistyczna (dyskryminujący „odpowiednik” Naive Bayes) nie.

P.(X|Y)P.(Y)P.(Y=minsolljash)=0,7P.(Y=farmindoh)=0,3, wraz z prawdopodobieństwem słów w języku angielskim i francuskim, możemy teraz wygenerować nowy dokument, najpierw wybierając język dokumentu (angielski z prawdopodobieństwem 0,7, francuski z prawdopodobieństwem 0,3), a następnie generując słowa zgodnie z prawdopodobieństwem słów wybranego języka.

P.(Y|X)P.(X|Y)P.(Y)P.(X|Y)P.(Y)P.(Y|X)

3: Modele generatywne często przewyższają modele dyskryminacyjne w mniejszych zestawach danych, ponieważ ich założenia generatywne wprowadzają pewną strukturę w modelu, która zapobiega nadmiernemu dopasowaniu . Rozważmy na przykład Naive Bayes vs. Regresja logistyczna. Założenie Naive Bayes jest oczywiście rzadko spełnione, więc regresja logistyczna będzie miała tendencję do przewyższania Naive Bayes wraz ze wzrostem zbioru danych (ponieważ może wychwycić zależności, których Naive Bayes nie potrafi). Ale gdy masz tylko niewielki zestaw danych, regresja logistyczna może wykryć fałszywe wzorce, które tak naprawdę nie istnieją, więc Naive Bayes działa jako rodzaj regulizatora w twoim modelu, który zapobiega nadmiernemu dopasowaniu. Jest artykuł Andrew Ng i Michaela Jordana na temat klasyfikatorów dyskryminujących i generatywnych, który mówi o tym więcej.

4: Myślę, że oznacza to, że modele generatywne mogą faktycznie nauczyć się podstawowej struktury danych, jeśli poprawnie określisz swój model, a model faktycznie się zachowa, ale modele dyskryminacyjne mogą przewyższyć wyniki w przypadku niespełnienia twoich założeń generacyjnych (ponieważ algorytmy dyskryminacyjne są mniej przywiązany do konkretnej struktury, a świat rzeczywisty jest nieuporządkowany, a założenia rzadko są w pełni spełnione). (Prawdopodobnie zignorowałbym te cytaty, jeśli są mylące).

raegtin
źródło