Jakie są różnice w wnioskach, które można wyciągnąć z analizy ukrytej klasy (LCA) w porównaniu z analizą skupień? Czy to prawda, że LCA zakłada ukrytą zmienną, która powoduje powstanie klas, podczas gdy analiza skupień jest empirycznym opisem skorelowanych atrybutów z algorytmu klastrowania? Wydaje się, że w naukach społecznych LCA zyskał popularność i jest uważany za lepszy metodologicznie, biorąc pod uwagę, że ma formalny test istotności chi-kwadrat, czego nie robi analiza skupień.
Byłoby wspaniale, gdyby przykłady mogły być oferowane w formie: „LCA byłby do tego odpowiedni (ale nie analiza skupień), a analiza skupień byłaby do tego odpowiednia (ale nie utajona analiza klas).
Dzięki! Brian
clustering
latent-variable
latent-class
Brian P.
źródło
źródło
inferences
w tym kontekście i dlaczego interesują was tylko różnice w wnioskowaniu?Odpowiedzi:
Analiza klas utajonych jest w rzeczywistości modelem mieszanki skończonej (patrz tutaj ). Główną różnicą między FMM a innymi algorytmami klastrowania jest to, że FMM oferuje ci podejście oparte na modelach, które tworzy klastry przy użyciu modelu probabilistycznego, który opisuje dystrybucję danych. Zamiast więc znajdować klastry z dowolnie wybraną miarą odległości, używasz modelu, który opisuje rozkład twoich danych i na podstawie tego modelu oceniasz prawdopodobieństwo, że pewne przypadki należą do pewnych ukrytych klas. Można więc powiedzieć, że jest to podejście odgórne (zaczyna się od opisu dystrybucji danych), podczas gdy inne algorytmy klastrowania są raczej podejściem oddolnym (można znaleźć podobieństwa między przypadkami).
Ponieważ do wyboru modelu danych używasz modelu statystycznego, a ocena dobroci dopasowania jest możliwa - w przeciwieństwie do grupowania. Ponadto, jeśli przyjmiesz, że istnieje jakiś proces lub „ukryta struktura”, która leży u podstaw struktury twoich danych, FMM wydaje się być właściwym wyborem, ponieważ pozwalają modelować ukrytą strukturę za twoimi danymi (zamiast po prostu szukać podobieństw).
Inną różnicą jest to, że FMM są bardziej elastyczne niż klastrowanie. Algorytmy klastrowania po prostu wykonują klastrowanie, podczas gdy istnieją modele oparte na FMM i LCA, które
Więcej przykładów patrz:
oraz dokumentację pakietów flexmix i poLCA w języku R, w tym następujące dokumenty:
źródło
Model klasy utajonej (lub profil utajony, lub bardziej ogólnie, model mieszanki skończonej) można traktować jako model probablistyczny dla grupowania (lub klasyfikacji bez nadzoru). Cel jest zasadniczo taki sam - zidentyfikować jednorodne grupy w większej populacji. Myślę, że główne różnice między ukrytymi modelami klas a algorytmicznymi podejściami do klastrowania polegają na tym, że te pierwsze oczywiście sprzyjają bardziej teoretycznym spekulacjom na temat natury klastrowania; a ponieważ model klasy utajonej jest probablistyczny, daje dodatkowe alternatywy dla oceny dopasowania modelu za pomocą statystyk prawdopodobieństwa oraz lepiej wychwytuje / utrzymuje niepewność w klasyfikacji.
W tym wątku możesz znaleźć przydatne informacje , a także tę odpowiedź na podobny post autorstwa chl.
Istnieją również podobieństwa (na poziomie pojęciowym) z tym pytaniem dotyczącym analizy PCA vs. analiza czynnikowa, i to także.
źródło
Różnica polega na tym, że Analiza Utajonej Klasy użyłaby ukrytych danych (które są zwykle wzorcami asocjacji w cechach) w celu ustalenia prawdopodobieństwa dla cech w klasie. Następnie można wyciągać wnioski przy użyciu maksymalnego prawdopodobieństwa, aby podzielić przedmioty na klasy na podstawie ich cech.
Analiza skupień drukuje funkcje i wykorzystuje algorytmy, takie jak najbliżsi sąsiedzi, gęstość lub hierarchia, w celu ustalenia, do których klas należy element.
Zasadniczo wnioskowanie LCA można uznać za „co jest najbardziej podobnymi wzorcami przy użyciu prawdopodobieństwa”, a analiza skupień byłaby „czymś najbliższym przy użyciu odległości”.
źródło