Naturalna interpretacja hiperparametrów LDA

21

Czy ktoś może wyjaśnić, jaka jest naturalna interpretacja hiperparametrów LDA? ALPHAi BETAsą parametrami dystrybucji Dirichleta odpowiednio dla (na dokument) tematu i (na temat) dystrybucji słów. Jednak czy ktoś może wyjaśnić, co to znaczy wybrać większe wartości tych hiperparametrów w porównaniu do mniejszych wartości? Czy to oznacza umieszczanie jakichkolwiek wcześniejszych przekonań w zakresie rzadkości tematów w dokumentach i wzajemnej wyłączności tematów w odniesieniu do słów?

To pytanie dotyczy utajonej alokacji Dirichleta, ale komentarz BGReene bezpośrednio poniżej odnosi się do liniowej analizy dyskryminacyjnej, która myląco jest również skrótem LDA.

interpretation prior topic-models hyperparameter abhinavkulkarni
źródło

Myślę, że musisz podać więcej szczegółów na temat używanego preparatu LDA. Ogólnie rzecz biorąc, tylko modele RDA mają te parametry, LDA zwykle jest definiowane całkowicie przez wektor średni, macierz kowariancji i wcześniejsze prawdopodobieństwa.

BGreene,

11

David Blei ma świetny wykład przedstawiający LDA uczniom klasy letniej: http://videolectures.net/mlss09uk_blei_tm/

W pierwszym filmie obszernie omawia podstawową ideę modelowania tematów i sposób, w jaki wchodzi dystrybucja Dirichleta. Zapis tablicowy jest wyjaśniony tak, jakby zaobserwowano wszystkie ukryte zmienne, aby pokazać zależności. Zasadniczo tematy to dystrybucja słów i dystrybucja dokumentów na tematy.

W drugim filmie pokazuje efekt alfa na przykładowych wykresach. Im mniejsza alfa, tym rzadszy rozkład. Ponadto wprowadza pewne podejścia wnioskowania.

Karsten
źródło

7

to nie powinna być zaakceptowana odpowiedź

samsamara,

Chyba masz racje. Zupełnie zapomniałem, że to napisałem.

Karsten

O! nie spodziewałem się komentarza autora! hehe :)

samsamara

48

Odpowiedź zależy od tego, czy przyjmujesz symetryczny czy asymetryczny rozkład dirichleta (czy, bardziej technicznie, czy miara podstawowa jest jednolita). O ile nie określono inaczej, większość implementacji LDA zakłada, że rozkład jest symetryczny.

W przypadku rozkładu symetrycznego wysoka wartość alfa oznacza, że każdy dokument może zawierać mieszankę większości tematów, a nie żadnego konkretnego tematu. Niska wartość alfa nakłada mniej takich ograniczeń na dokumenty i oznacza, że bardziej prawdopodobne jest, że dokument może zawierać tylko kilka lub nawet tylko jeden temat. Podobnie wysoka wartość beta oznacza, że każdy temat może zawierać mieszankę większości słów, a nie żadnego konkretnego słowa, natomiast niska wartość oznacza, że temat może zawierać tylko kilka słów.

Jeśli natomiast rozkład jest asymetryczny, wysoka wartość alfa oznacza, że określony rozkład tematów (w zależności od miary podstawowej) jest bardziej prawdopodobny dla każdego dokumentu. Podobnie wysokie wartości beta oznaczają, że bardziej prawdopodobne jest, że każdy temat zawiera określoną mieszankę słów zdefiniowaną przez miarę podstawową.

W praktyce wysoka wartość alfa spowoduje, że dokumenty będą bardziej podobne pod względem zawartych w nich tematów. Wysoka wartość beta podobnie spowoduje, że tematy będą bardziej podobne pod względem zawartych w nich słów.

Tak, tak, parametry alfa określają wcześniejsze przekonania na temat rzadkości / jednolitości tematu w dokumentach. Nie jestem jednak do końca pewien, co rozumiesz przez „wzajemną wyłączność tematów pod względem słów”.

Mówiąc bardziej ogólnie, są to parametry stężenia dla rozkładu dirichleta zastosowanego w modelu LDA. Aby uzyskać intuicyjne zrozumienie tego, jak to działa, ta prezentacja zawiera kilka ładnych ilustracji, a także dobre objaśnienie LDA w ogóle.

$(\alpha_1, \alpha_2, ... ,\alpha_K)$ $u = (u_1, u_2, ..., u_K)$ $\alpha$ $\alpha * \textbf{u} = (\alpha_1, \alpha_2, ... ,\alpha_K)$ $\alpha$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$

AMO
źródło

2

+1 pouczająca odpowiedź! Chcę zapytać, jak wysoka / niska jest ogólnie wysoka / niska wartość dla alfa i beta?

samsamara,

Beta ma być rozkładem słów na każdy temat (macierz), prawda? Jak więc pojedyncza wartość przekłada się na macierz?

Noamiko,

Czy mam rację, stwierdzając, że wysoka alfa oznacza, że dokumenty są podobne, a wysoka beta oznacza, że tematy są podobne?

Lewistrick

Naturalna interpretacja hiperparametrów LDA

Odpowiedzi: