Analiza klas ukrytych a analiza skupień - różnice w wnioskach?

30

Jakie są różnice w wnioskach, które można wyciągnąć z analizy ukrytej klasy (LCA) w porównaniu z analizą skupień? Czy to prawda, że ​​LCA zakłada ukrytą zmienną, która powoduje powstanie klas, podczas gdy analiza skupień jest empirycznym opisem skorelowanych atrybutów z algorytmu klastrowania? Wydaje się, że w naukach społecznych LCA zyskał popularność i jest uważany za lepszy metodologicznie, biorąc pod uwagę, że ma formalny test istotności chi-kwadrat, czego nie robi analiza skupień.

Byłoby wspaniale, gdyby przykłady mogły być oferowane w formie: „LCA byłby do tego odpowiedni (ale nie analiza skupień), a analiza skupień byłaby do tego odpowiednia (ale nie utajona analiza klas).

Dzięki! Brian

Brian P.
źródło
1
Jak nazywacie inferencesw tym kontekście i dlaczego interesują was tylko różnice w wnioskowaniu?
ttnphns
1
@ttnphns Przez wnioski rozumiem merytoryczną interpretację wyników. Nie jestem pewien co do drugiej części twojego pytania dotyczącego mojego zainteresowania „tylko różnicami w wnioskach?” Nie jestem zainteresowany wykonywaniem ich odpowiednich algorytmów lub podstawowej matematyki. Interesuje mnie sposób interpretacji wyników.
Brian P

Odpowiedzi:

27

Analiza klas utajonych jest w rzeczywistości modelem mieszanki skończonej (patrz tutaj ). Główną różnicą między FMM a innymi algorytmami klastrowania jest to, że FMM oferuje ci podejście oparte na modelach, które tworzy klastry przy użyciu modelu probabilistycznego, który opisuje dystrybucję danych. Zamiast więc znajdować klastry z dowolnie wybraną miarą odległości, używasz modelu, który opisuje rozkład twoich danych i na podstawie tego modelu oceniasz prawdopodobieństwo, że pewne przypadki należą do pewnych ukrytych klas. Można więc powiedzieć, że jest to podejście odgórne (zaczyna się od opisu dystrybucji danych), podczas gdy inne algorytmy klastrowania są raczej podejściem oddolnym (można znaleźć podobieństwa między przypadkami).

Ponieważ do wyboru modelu danych używasz modelu statystycznego, a ocena dobroci dopasowania jest możliwa - w przeciwieństwie do grupowania. Ponadto, jeśli przyjmiesz, że istnieje jakiś proces lub „ukryta struktura”, która leży u podstaw struktury twoich danych, FMM wydaje się być właściwym wyborem, ponieważ pozwalają modelować ukrytą strukturę za twoimi danymi (zamiast po prostu szukać podobieństw).

Inną różnicą jest to, że FMM są bardziej elastyczne niż klastrowanie. Algorytmy klastrowania po prostu wykonują klastrowanie, podczas gdy istnieją modele oparte na FMM i LCA, które

  • umożliwiają przeprowadzenie potwierdzającej analizy między grupami,
  • łączyć modele teorii odpowiedzi na przedmiot (i inne) z LCA,
  • uwzględniać zmienne towarzyszące, aby przewidzieć utajone członkostwo danej klasy,
  • i / lub nawet modele regresji wewnątrzgrupowej w regresji klasy ukrytej ,
  • umożliwiają modelowanie zmian w czasie w strukturze danych itp.

Więcej przykładów patrz:

Hagenaars JA & McCutcheon, AL (2009). Zastosowana analiza klas ukrytych. Cambridge University Press.

oraz dokumentację pakietów flexmix i poLCA w języku R, w tym następujące dokumenty:

Linzer, DA i Lewis, JB (2011). poLCA: pakiet R do analizy polimorficznej zmiennej utajonej klasy utajonej. Journal of Statistics Software, 42 (10), 1-29.

Leisch, F. (2004). Flexmix: Ogólne ramy dla modeli skończonych mieszanin i regresji szkła utajonego w R. Journal of Statistics Software, 11 (8), 1-18.

Grün, B., i Leisch, F. (2008). FlexMix wersja 2: skończone mieszanki z towarzyszącymi zmiennymi oraz zmiennymi i stałymi parametrami . Journal of Statistics Software, 28 (4), 1-35.

Tim
źródło
3

Model klasy utajonej (lub profil utajony, lub bardziej ogólnie, model mieszanki skończonej) można traktować jako model probablistyczny dla grupowania (lub klasyfikacji bez nadzoru). Cel jest zasadniczo taki sam - zidentyfikować jednorodne grupy w większej populacji. Myślę, że główne różnice między ukrytymi modelami klas a algorytmicznymi podejściami do klastrowania polegają na tym, że te pierwsze oczywiście sprzyjają bardziej teoretycznym spekulacjom na temat natury klastrowania; a ponieważ model klasy utajonej jest probablistyczny, daje dodatkowe alternatywy dla oceny dopasowania modelu za pomocą statystyk prawdopodobieństwa oraz lepiej wychwytuje / utrzymuje niepewność w klasyfikacji.

W tym wątku możesz znaleźć przydatne informacje , a także tę odpowiedź na podobny post autorstwa chl.

Istnieją również podobieństwa (na poziomie pojęciowym) z tym pytaniem dotyczącym analizy PCA vs. analiza czynnikowa, i to także.

DL Dahly
źródło
2

Różnica polega na tym, że Analiza Utajonej Klasy użyłaby ukrytych danych (które są zwykle wzorcami asocjacji w cechach) w celu ustalenia prawdopodobieństwa dla cech w klasie. Następnie można wyciągać wnioski przy użyciu maksymalnego prawdopodobieństwa, aby podzielić przedmioty na klasy na podstawie ich cech.

Analiza skupień drukuje funkcje i wykorzystuje algorytmy, takie jak najbliżsi sąsiedzi, gęstość lub hierarchia, w celu ustalenia, do których klas należy element.

Zasadniczo wnioskowanie LCA można uznać za „co jest najbardziej podobnymi wzorcami przy użyciu prawdopodobieństwa”, a analiza skupień byłaby „czymś najbliższym przy użyciu odległości”.

ccsv
źródło
Czy możesz wyjaśnić, do czego odnosi się to stwierdzenie dotyczące analizy skupień? Czy jest to najbliższa „cecha” oparta na pomiarze odległości?
Brian P
rzeczą byłby obiekt obiekt lub dowolne dane, które wprowadzisz za pomocą parametrów funkcji.
ccsv