W rozdziale 9 książki Rozpoznawanie wzorców i uczenie maszynowe jest ta część o modelu mieszanki Gaussa:
Szczerze mówiąc, tak naprawdę nie rozumiem, dlaczego stworzyłoby to osobliwość. Czy ktoś może mi to wytłumaczyć? Przykro mi, ale jestem tylko studentem i początkującym w uczeniu maszynowym, więc moje pytanie może zabrzmieć trochę głupio, ale proszę, pomóż mi. Dziękuję Ci bardzo
gaussian-mixture
Dang Manh Truong
źródło
źródło
Odpowiedzi:
Jeśli chcemy dopasować Gaussa do pojedynczego punktu danych z maksymalnym prawdopodobieństwem, otrzymamy bardzo kolczasty Gaussa, który „zapadnie się” do tego punktu. Wariancja wynosi zero, gdy jest tylko jeden punkt, który w przypadku wielowymiarowym przypadku Gaussa prowadzi do pojedynczej macierzy kowariancji, więc nazywa się to problemem osobliwości.
Kiedy wariancja osiągnie zero, prawdopodobieństwo elementu Gaussa (wzór 9.15) przechodzi w nieskończoność, a model staje się przeregulowany. Nie dzieje się tak, gdy dopasujemy tylko jednego Gaussa do wielu punktów, ponieważ wariancja nie może wynosić zero. Ale może się to zdarzyć, gdy mamy mieszankę Gaussów, jak pokazano na tej samej stronie PRML.
Aktualizacja :
książka sugeruje dwie metody rozwiązania problemu osobliwości
1) resetowanie średniej i wariancji w przypadku wystąpienia osobliwości
2) za pomocą MAP zamiast MLE poprzez dodanie wcześniejszego.
źródło
Ta część mnie też trochę myliła i oto moja interpretacja. Dla uproszczenia weź skrzynkę 1D.
Kiedy pojedynczy gaussowski „zapada się” w punkcie danych , tj. Μ = x i , ogólne prawdopodobieństwo wynosi:xi μ=xi
Widzisz jako , termin po lewej p ( x i ) → ∞ , który jest podobny do przypadku patologicznego w GMM, ale termin po prawej, który jest prawdopodobieństwem innych punktów danych p ( x ∖ i ) , nadal zawiera terminy takie jak e - ( x n - μ ) 2σ→0 p(xi)→∞ p(x∖i) które→0wykładniczo szybko jakσ→0, więc ogólny wpływ na prawdopodobieństwo jest to, że osiągnie zero.e−(xn−μ)22σ2) →0 σ→0
Głównym punktem tutaj jest to, że przy dopasowywaniu pojedynczego Gaussa wszystkie punkty danych muszą dzielić jeden zestaw parametrów , w przeciwieństwie do przypadku mieszanki, w którym jeden składnik może „skupić się” na jednym punkcie danych bez uszczerbku dla ogólnego prawdopodobieństwa danych .μ,σ
źródło
Ta odpowiedź da wgląd w to, co się dzieje, co prowadzi do pojedynczej macierzy kowariancji podczas dopasowywania GMM do zbioru danych, dlaczego tak się dzieje, a także co możemy zrobić, aby temu zapobiec.
Dlatego najlepiej zacząć od podsumowania kroków podczas dopasowywania modelu mieszanki Gaussa do zestawu danych.
0. Zdecyduj, ile źródeł / klastrów (c) chcesz dopasować do swoich danych
1. Zainicjuj parametry średnie , kowariancja Σ c i fraction_per_class π c na klaster c
gdzieN(x|μ,Σ)opisuje wielowariantowy gaussowski z: N(xi,μc,Σc)=1
ricdaje nam dla każdego punktu danychximiarę:Probabilitythatxibelongstoclas
μc=1
Σc=1
Pamiętaj, że musisz użyć zaktualizowanych środków w tym ostatnim wzorze. Iteracyjnie powtarzaj krok E i M, aż funkcja prawdopodobieństwa logarytmicznego naszego modelu zbiega się, gdzie prawdopodobieństwo logarytmu jest obliczane z: lnp(X|π,μ,Σ)=Σ N i = 1 ln(Σ K
źródło
Imho, wszystkie odpowiedzi pomijają fundamentalny fakt. Jeśli spojrzy się na przestrzeń parametrów dla modelu mieszanki Gaussa, przestrzeń ta jest pojedyncza wzdłuż podprzestrzeni, w której w mieszance jest mniej niż pełna liczba składników. Oznacza to, że pochodne są automatycznie zerowe i zazwyczaj cała podprzestrzeń pojawia się jako mle. Mówiąc bardziej filozoficznie, podprzestrzeń kowariancji niższych niż ranga jest granicą przestrzeni parametrów i zawsze należy być podejrzliwym, gdy mle pojawia się na granicy - zwykle oznacza to, że czai się większa przestrzeń parametrów, w której można znaleźć „prawdziwy” mle. Istnieje książka zatytułowana „Statystyka algebraiczna” autorstwa Drtona, Sturmfelda i Sullivanta. Zagadnienie to zostało szczegółowo omówione w tej książce. Jeśli jesteś naprawdę ciekawy, powinieneś na to spojrzeć.
źródło
źródło