Czy ktoś może wyjaśnić, jaka jest naturalna interpretacja hiperparametrów LDA? ALPHA
i BETA
są parametrami dystrybucji Dirichleta odpowiednio dla (na dokument) tematu i (na temat) dystrybucji słów. Jednak czy ktoś może wyjaśnić, co to znaczy wybrać większe wartości tych hiperparametrów w porównaniu do mniejszych wartości? Czy to oznacza umieszczanie jakichkolwiek wcześniejszych przekonań w zakresie rzadkości tematów w dokumentach i wzajemnej wyłączności tematów w odniesieniu do słów?
To pytanie dotyczy utajonej alokacji Dirichleta, ale komentarz BGReene bezpośrednio poniżej odnosi się do liniowej analizy dyskryminacyjnej, która myląco jest również skrótem LDA.
interpretation
prior
topic-models
hyperparameter
abhinavkulkarni
źródło
źródło
Odpowiedzi:
David Blei ma świetny wykład przedstawiający LDA uczniom klasy letniej: http://videolectures.net/mlss09uk_blei_tm/
W pierwszym filmie obszernie omawia podstawową ideę modelowania tematów i sposób, w jaki wchodzi dystrybucja Dirichleta. Zapis tablicowy jest wyjaśniony tak, jakby zaobserwowano wszystkie ukryte zmienne, aby pokazać zależności. Zasadniczo tematy to dystrybucja słów i dystrybucja dokumentów na tematy.
W drugim filmie pokazuje efekt alfa na przykładowych wykresach. Im mniejsza alfa, tym rzadszy rozkład. Ponadto wprowadza pewne podejścia wnioskowania.
źródło
Odpowiedź zależy od tego, czy przyjmujesz symetryczny czy asymetryczny rozkład dirichleta (czy, bardziej technicznie, czy miara podstawowa jest jednolita). O ile nie określono inaczej, większość implementacji LDA zakłada, że rozkład jest symetryczny.
W przypadku rozkładu symetrycznego wysoka wartość alfa oznacza, że każdy dokument może zawierać mieszankę większości tematów, a nie żadnego konkretnego tematu. Niska wartość alfa nakłada mniej takich ograniczeń na dokumenty i oznacza, że bardziej prawdopodobne jest, że dokument może zawierać tylko kilka lub nawet tylko jeden temat. Podobnie wysoka wartość beta oznacza, że każdy temat może zawierać mieszankę większości słów, a nie żadnego konkretnego słowa, natomiast niska wartość oznacza, że temat może zawierać tylko kilka słów.
Jeśli natomiast rozkład jest asymetryczny, wysoka wartość alfa oznacza, że określony rozkład tematów (w zależności od miary podstawowej) jest bardziej prawdopodobny dla każdego dokumentu. Podobnie wysokie wartości beta oznaczają, że bardziej prawdopodobne jest, że każdy temat zawiera określoną mieszankę słów zdefiniowaną przez miarę podstawową.
W praktyce wysoka wartość alfa spowoduje, że dokumenty będą bardziej podobne pod względem zawartych w nich tematów. Wysoka wartość beta podobnie spowoduje, że tematy będą bardziej podobne pod względem zawartych w nich słów.
Tak, tak, parametry alfa określają wcześniejsze przekonania na temat rzadkości / jednolitości tematu w dokumentach. Nie jestem jednak do końca pewien, co rozumiesz przez „wzajemną wyłączność tematów pod względem słów”.
Mówiąc bardziej ogólnie, są to parametry stężenia dla rozkładu dirichleta zastosowanego w modelu LDA. Aby uzyskać intuicyjne zrozumienie tego, jak to działa, ta prezentacja zawiera kilka ładnych ilustracji, a także dobre objaśnienie LDA w ogóle.
źródło