Założenia analizy skupień

16

Przepraszam za podstawowe pytanie, jestem nowy w tej formie analizy i jak dotąd mam bardzo ograniczone rozumienie zasad.

Zastanawiałem się tylko, czy wiele z parametrycznych założeń dla testów wielowymiarowych / jednowymiarowych ma zastosowanie do analizy skupień? Wiele źródeł informacji, które przeczytałem na temat analizy skupień, nie określa żadnych założeń.

Szczególnie interesuje mnie założenie niezależności obserwacji. Rozumiem, że naruszenie tego założenia (na przykład w ANOVA i MAVOVA) jest poważne, ponieważ wpływa na oszacowanie błędu. Z mojego dotychczasowego czytania wynika, że ​​analiza skupień jest w dużej mierze techniką opisową (która obejmuje wnioskowanie statystyczne tylko w niektórych określonych przypadkach). Czy w związku z tym wymagane są takie założenia, jak niezależność i normalnie rozpowszechniane dane?

Wszelkie zalecenia dotyczące tekstów omawiających ten problem byłyby bardzo mile widziane. Wielkie dzięki.

Kyle Brown
źródło

Odpowiedzi:

7

Cóż, techniki grupowania nie ograniczają się do metod opartych na odległości , w których szukamy grup jednostek statystycznych, które są niezwykle blisko siebie, w sensie geometrycznym. Istnieje również szereg technik polegających na gęstości (klastry są postrzegane jako „regiony” w przestrzeni cech) lub rozkład prawdopodobieństwa .

Ten drugi przypadek jest również znany jako klastrowanie oparte na modelach ; psychometrycy używają terminu Analiza Profilu Utajonego, aby określić ten konkretny przypadek Modelu Mieszanki Skończonej , w którym zakładamy, że populacja składa się z różnych nieobserwowanych grup lub klas utajonych i że łączna gęstość wszystkich przejawianych zmiennych jest mieszanką tej klasy gęstość właściwa. Dobra realizacja są dostępne w Mclust opakowaniu lub Mplus oprogramowania. Można zastosować różne macierze kowariancji niezmiennej dla klasy (w rzeczywistości Mclust używa kryterium BIC, aby wybrać optymalną, jednocześnie zmieniając liczbę klastrów).

Standardowy model klasy utajonej przyjmuje również założenie, że obserwowane dane pochodzą z mieszanki g wielowymiarowych rozkładów wielomianowych. Dobry przegląd jest dostępny w analizie skupień opartej na modelu: Obrona , autorstwa Gillesa Celeux.

Ponieważ metody te opierają się na założeniach dystrybucyjnych, umożliwia to również stosowanie testów formalnych lub wskaźników dobroci dopasowania do decydowania o liczbie klastrów lub klas, co pozostaje trudnym problemem w analizie klastrów na podstawie odległości, ale patrz następujące artykuły który omawiał ten problem:

  1. Handl, J., Knowles, J., i Kell, DB (2005). Obliczeniowa walidacja klastra w analizie danych postgenomowych. Bioinformatics , 21 (15) , 3201–3212.
  2. Hennig, C. (2007) Ocena stabilności skupień pod kątem klastrów. Statystyka obliczeniowa i analiza danych , 52 , 258–271.
  3. Hennig, C. (2008) Punkt rozpuszczalności i odporność na izolację: kryteria odporności dla ogólnych metod analizy skupień. Journal of Multivariate Analysis , 99 , 1154-1176.
chl
źródło
3

Istnieje bardzo szeroka gama metod grupowania, które są z natury eksploracyjne i nie sądzę, aby którakolwiek z nich, hierarchiczna lub oparta na partycjach, opiera się na rodzaju założeń, które należy spełnić, aby przeanalizować wariancję.

Przeglądając dokumentację [MV] w Stacie, aby odpowiedzieć na twoje pytanie, znalazłem ten zabawny cytat na stronie 85:

Chociaż niektórzy powiedzieli, że istnieje tyle metod analizy skupień, ile osób przeprowadza analizę skupień. To rażące niedopowiedzenie! Istnieje nieskończenie więcej sposobów przeprowadzania analizy skupień niż osoby, które ją wykonują.

W tym kontekście wątpię, aby były jakieś założenia dotyczące metody grupowania. Pozostała część tekstu stanowi ogólną zasadę, że do tworzenia klastrów potrzebna jest pewna forma „miary niepodobieństwa”, która nie musi być nawet odległością metryczną.

Jest jednak jeden wyjątek, który występuje w przypadku grupowania obserwacji w ramach analizy po oszacowaniu. W programie Stata vcepolecenie zawiera następujące ostrzeżenie na stronie 86 tego samego źródła:

Jeśli znasz dużą tablicę poleceń szacowania Staty, pamiętaj, aby odróżnić analizę skupień (polecenie skupienia) od dozwolonej opcji vce (skupienie klastrów) w przypadku wielu poleceń oszacowania. Analiza skupień wyszukuje grupy w danych. Opcja vce (klaster klastrowy) dozwolona z różnymi poleceniami szacowania wskazuje, że obserwacje są niezależne w grupach zdefiniowanych przez opcję, ale niekoniecznie są niezależne w obrębie tych grup. Zmienna grupująca utworzona za pomocą komendy klaster rzadko spełnia założenia związane z użyciem opcji vce (klaster klastrowy).

Na tej podstawie zakładam, że niezależne obserwacje nie są wymagane poza tym konkretnym przypadkiem. Intuicyjnie dodałbym, że analiza skupień może być nawet wykorzystana do dokładnego celu zbadania stopnia, w jakim obserwacje są niezależne lub nie.

Na koniec wspomnę, że na stronie 356Statystyki ze Statą” Lawrence Hamilton wymienia znormalizowane zmienne jako „niezbędny” aspekt analizy skupień, chociaż nie zagłębia się bardziej szczegółowo w tę kwestię.

Ks.
źródło
2

Przestrzenna analiza skupień wykorzystuje obserwacje odniesione geograficznie i jest podzbiorem analizy skupień, która nie ogranicza się do analizy eksploracyjnej.

Przykład 1

Można go wykorzystać do stworzenia uczciwych okręgów wyborczych.

Przykład 2

Lokalne miary autokorelacji przestrzennej są stosowane w metodzie klastrowania AMOEBA . Aldstadt i Getis wykorzystują powstałe klastry do utworzenia macierzy przestrzennych wag, które można określić w regresjach przestrzennych w celu przetestowania hipotezy.

Patrz Aldstadt, Jared i Arthur Getis (2006) „Korzystanie z AMOEBA do tworzenia macierzy wag przestrzennych i identyfikowania klastrów przestrzennych”. Analiza geograficzna 38 (4) 327-343

Przykład 3

Analiza skupień oparta na losowo rosnących regionach, które otrzymały zestaw kryteriów, mogłaby zostać wykorzystana jako metoda probabilistyczna w celu wykazania niesprawiedliwości w projektowaniu stref instytucjonalnych, takich jak strefy uczęszczania do szkół lub okręgi wyborcze.

b_dev
źródło