LDA ma dwa hiperparametry, strojenie ich zmienia indukowane tematy.
Co hiperparametry alfa i beta przyczyniają się do LDA?
Jak zmienia się temat, jeśli jeden lub drugi hiperparametry zwiększają się lub zmniejszają?
Dlaczego są to hiperparametry, a nie tylko parametry?
topic-model
lda
parameter
alvas
źródło
źródło
Odpowiedzi:
Rozkład Dirichleta jest rozkładem wielowymiarowym. Możemy określić parametry Dirichleta jako wektor wielkości K w postaci ~ , gdzie jest wektorem wielkości parametrów, a . aK∑xi=11B ( a )⋅ ∏jaxzai - 1ja za K. ∑ xja= 1
Teraz LDA używa niektórych konstrukcji, takich jak:
Dwie poprzednie to dystrybucje, których tak naprawdę nie widać z danych, dlatego nazywa się je ukrytym lub ukrytym.
Teraz, w wnioskowaniu bayesowskim, używasz reguły Bayesa, aby wnioskować o prawdopodobieństwie późniejszym. Dla uproszczenia załóżmy, że masz dane i masz model tych danych, regulowany przez niektóre parametry . Aby wnioskować o wartościach dla tych parametrów, w pełnym wnioskowaniu bayesowskim wnioskujesz o prawdopodobieństwie późniejszym tych parametrów, stosując regułę Bayesa z Pamiętaj, że tutaj przychodziθ p ( θ | x ) = p ( x | θ ) p ( θ | α )x θ α
Parametry wcześniejsze nazywane są hiperparametrami . Tak więc w LDA obie dystrybucje tematów, nad dokumentami i nad słowami mają również odpowiadające priory, które są zwykle oznaczone alfą i beta, a ponieważ są parametrami wcześniejszych dystrybucji, nazywane są hiperparametrami.
Teraz o wyborze priorytetów. Jeśli wykreślisz niektóre rozkłady Dirichleta, zauważysz, że jeśli poszczególne parametry mają tę samą wartość, pdf jest symetryczny w formacie simpleks zdefiniowanym przez wartości , czyli minimum lub maksimum dla pdf jest w centrum. xαk x
Jeśli wszystkie mają wartości niższe niż jednostka, maksimum znajduje się w rogachαk
lub może, jeśli wszystkie wartości są takie same i większe niż 1, maksimum zostanie znalezione w środku jakαk
Łatwo zauważyć, że jeśli wartości dla nie są równe, symetria zostanie przerwana, a maksimum zostanie znalezione w pobliżu większych wartości.αk
Dodatkowo należy pamiętać, że wartości parametrów priors generują płynne pliki pdf rozkładu, ponieważ wartości parametrów są bliskie 1. Więc jeśli masz dużą pewność, że coś jest wyraźnie dystrybuowane w sposób, który znasz, z dużym stopniem pewności, niż należy stosować wartości dalekie od 1 w wartości bezwzględnej, jeśli nie masz takiej wiedzy, to wartości bliskie 1 oznaczałyby ten brak wiedzy. Łatwo jest zrozumieć, dlaczego 1 odgrywa taką rolę w dystrybucji Dirichleta ze wzoru samej dystrybucji.
Innym sposobem na zrozumienie tego jest dostrzeżenie, że wcześniejsze kodowanie wcześniejszej wiedzy. W tym samym czasie możesz pomyśleć, że wcześniej koduje niektóre wcześniej widoczne dane. Algorytm nie widział tych danych, widział je sam, nauczyłeś się czegoś i możesz modelować wcześniej zgodnie z tym, co wiesz (nauczyłeś się). Tak więc we wcześniejszych parametrach (hiperparametrach) kodujesz również, jak duży był ten zestaw danych, który widziałeś apriori, ponieważ suma może być równa wielkości tego mniej więcej fikcyjnego zestawu danych. Im większy jest wcześniejszy zestaw danych, tym większa jest pewność, tym większe wartości można wybrać, tym ostrzejsza powierzchnia w pobliżu wartości maksymalnej, co oznacza również mniejsze wątpliwości.α kαk αk
Mam nadzieję, że to pomogło.
źródło
Zakładając symetryczne rozkłady Dirichleta (dla uproszczenia), niska wartość alfa kładzie większy nacisk na to, aby każdy dokument składał się tylko z kilku dominujących tematów (podczas gdy wysoka wartość zwróci o wiele więcej względnie dominujących tematów). Podobnie, niska wartość beta kładzie większy nacisk na to, aby każdy temat składał się tylko z kilku dominujących słów.
źródło