Rozkład prawdopodobieństwa grupowania - metody i mierniki?

13

Mam pewne punkty danych, każdy zawierający 5 wektorów aglomerowanych wyników dyskretnych, wyniki każdego wektora generowane przez inny rozkład (konkretny rodzaj, którego nie jestem pewien, najlepiej zgaduję, że Weibull, z parametrem kształtu zmieniającym się gdzieś w pobliżu wykładniczej mocy prawo (od 1 do 0, z grubsza).)

Chcę użyć algorytmu klastrowania, takiego jak K-Means, aby umieścić każdy punkt danych w grupach na podstawie atrybutów jego 5 rozkładów komponentów. Zastanawiałem się, czy istnieją jakieś ustalone wskaźniki odległości, które byłyby eleganckie do tych celów. Do tej pory miałem trzy pomysły, ale nie jestem doświadczonym statystykiem (bardziej początkującym informatykiem), więc nie mam pojęcia, jak daleko się posunąłem.

  1. Ponieważ nie wiem dokładnie, z jakimi dystrybucjami mam do czynienia, moje brutalne podejście do problemu polegało na pokrojeniu każdego z rozkładów (mam 5 na punkt) na każdą z odpowiednich dyskretnych wartości danych (padam każdy odpowiadający tej samej długości z zerami na końcu) i użyj każdej z tych wartości jako osobnego atrybutu dla samego punktu danych. Próbowałem użyć zarówno odległości Manhattanu, jak i odległości euklidesowej jako wskaźników opartych na tych atrybutach, zarówno w formacie PDF, jak i CDF.

  2. Ponownie, ponieważ nie wiem, jakie rodzaje rozkładów posiadam, pomyślałem, że jeśli zamierzam zmierzyć odległość między ogólnymi rozkładami, mógłbym zastosować jakiś test nieparametryczny parami między rozkładami, taki jak test KS , aby znaleźć prawdopodobieństwo wygenerowania danych dystrybucji przez różne pliki PDF. Pomyślałem, że moją pierwszą opcją (powyżej) użycie odległości na Manhattanie byłoby swego rodzaju górną granicą tego, co mogę uzyskać stosując to podejście (ponieważ statystyki KS to maksymalna wartość bezwzględna różnicy CDF, gdzie odległość na Manhattanie to suma wartości bezwzględnych różnic w plikach PDF). Następnie rozważyłem połączenie różnych statystyk KS lub wartości P w każdym punkcie danych, prawdopodobnie używając odległości euklidesowej, ale być może po prostu biorąc maksimum wszystkich tych wartości.

  3. Wreszcie, starając się wykorzystać to, co niewiele mogę zinterpretować na temat kształtu rozkładów, pomyślałem, że mogę spróbować oszacować parametry rozkładów jako pasujące do krzywej Weibulla. Mógłbym następnie grupować rozkłady na podstawie różnic w dwóch parametrach rozkładu Weibulla, lambda i k (skala i kształt), prawdopodobnie znormalizowanych zgodnie z wariancją tych parametrów lub coś w tym rodzaju. To jedyny przypadek, w którym pomyślałem, że mogę mieć pomysł na znormalizowanie parametrów.

Moje pytanie brzmi: jaki środek / metody poleciłbyś do grupowania dystrybucji? Czy z którymkolwiek z nich jestem na dobrej drodze? Czy K-Means jest nawet dobrym algorytmem?

Edycja: Wyjaśnienie danych.

Każdy punkt danych (każdy obiekt, Objktóry chcę klastrować) faktycznie dosłownie zawiera 5 vectorsdane. Wiem, że mogą istnieć dokładnie 5 faz. W celu uproszczenia powiemy (dla uproszczenia), że każdy wektor jest length N.

Każdy z tych wektorów (nazwać vector i) jest rozkład prawdopodobieństwa z całkowitą x-valuesod 1 do N, przy czym każdy odpowiada wartość y oznacza prawdopodobieństwo pomiaru value xw phase iobiektu Obj. N jest wtedy maksymalną wartością x, której spodziewam się zmierzyć w dowolnej fazie obiektu (w rzeczywistości nie jest to stała liczba).

Te prawdopodobieństwa określam w następujący sposób:

  1. Biorę jeden Obji umieścić go w phase iza k trials, biorąc pomiar przy każdej próbie. Każdy pomiar jest pojedynczą liczbą całkowitą. Robię to dla każdej z 5 faz jednego obiektu, a z kolei dla każdego obiektu. Moje surowe dane pomiarowe dla pojedynczego obiektu mogą wyglądać następująco:

    Wektor 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]

    Wektor 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]

    ...

    Wektor 5. [16, ... ..., 0]

  2. Następnie normalizuję każdy z wektorów w odniesieniu do całkowitej liczby pomiarów w danym wektorze. To daje mi rozkład prawdopodobieństwa w tym wektorze, gdzie każdy odpowiada y-wartość reprezentuje prawdopodobieństwo pomiaru value xw phase i.

tęsknota za maszyną
źródło
1
Nie jest dla mnie jasne, jak twoje punkty danych mogą „zawierać” rozkłady. Czy możesz podać przykład? Ponadto Weibull nie jest dyskretnym rozkładem prawdopodobieństwa, dlatego pożądane byłoby dodatkowe wyjaśnienie.
mpiktas,
@mpiktas: Każdy punkt danych reprezentuje obiekt, który ma 5 różnych faz. Zachowanie każdej fazy obiektu można teoretycznie przedstawić za pomocą funkcji ciągłego rozkładu prawdopodobieństwa, ale moje dane zawierają tylko dyskretne próbki. Rozkład Weibulla jest prawdopodobnie funkcją „teoretyczną” kryjącą się za moimi danymi, ale same dane są jedynie pomiarami gęstości w przedziałach dyskretnych.
maszyna tęskni

Odpowiedzi:

5

(Obliczeniowa) Geometria informacji to dziedzina, która dokładnie zajmuje się tego rodzaju problemami. Środki K mają rozszerzenie zwane środkami Bregmana, które wykorzystują rozbieżności (których szczególnym przypadkiem jest kwadrat Euklidesa ze standardowych środków K, ale także Kullback-Leibler). Dana rozbieżność jest związana z rozkładem, np. Kwadratowy euklidesowy do gaussowskiego.

Możesz na przykład przyjrzeć się twórczości Franka Nielsena

Możesz także spojrzeć na odległości Wassersteina (optymalny transport) , wspomniane jako Odległość Mover Earth w poprzednim poście.

mikrofon
źródło
3

W swoim artykule na temat algorytmu EP-Means Henderson i wsp. Przegląd podchodzą do tego problemu i przedstawiają własne. Rozważają:

  1. Grupowanie parametrów - określ parametry dla rozkładów na podstawie wcześniejszej wiedzy o rozkładzie i klastr na podstawie tych parametrów
    • zwróć uwagę, że tutaj możesz użyć dowolnej funkcji danych, nie tylko oszacowań parametrów, co jest przydatne, jeśli wiesz, że Twoje dane pochodzą z różnych dystrybucji
  2. Grupowanie histogramów - podziel dane na pojemniki i rozważ każdy pojemnik jako wymiar do zastosowania w klastrowaniu przestrzennym
  3. EP-Means (ich podejście) - zdefiniuj centroidy dystrybucyjne (mieszanina wszystkich rozkładów przypisanych do gromady) i zminimalizuj sumę kwadratów odległości Earth Mover (coś w rodzaju oczekiwanej wartości odległości między CDF) między centroidy dystrybucyjne i rozkłady przypisane do tego klastra.L.1

Inną techniką, którą z powodzeniem zastosowałem, jest grupowanie wszystkich zaobserwowanych punktów ze wszystkich rozkładów osobno, a następnie przypisywanie do rozkładu z miękkim prawdopodobieństwem odpowiadającym proporcji jego punktów, które kończą się w każdym skupieniu. Z drugiej strony znacznie trudniej jest w ten sposób rozdzielić dystrybucje. Z drugiej strony, jest to rodzaj automatycznej regulacji i zakłada, że ​​wszystkie dystrybucje są takie same. Używałbym go jednak tylko wtedy, gdy pożądana jest właściwość regularyzacji.

metapertura
źródło
1
$i$ja$l_2$l2)
1

Powinieneś kontynuować w dwóch krokach. (1) Redukcja danych i (2) Klastrowanie.

W kroku (1) należy dokładnie sprawdzić swoje dane i ustalić rozsądny rozkład prawdopodobieństwa dla swoich danych. Wydaje się, że już pomyślałeś o tym kroku. Następnym krokiem jest oszacowanie parametrów tych rozkładów. Możesz dopasować model osobno dla każdej jednostki, która ma być grupowana, lub może być właściwe użycie bardziej zaawansowanego modelu, takiego jak uogólniony liniowy model mieszany.

W kroku (2) można następnie utworzyć klaster na podstawie tych oszacowań parametrów. Na tym etapie powinieneś mieć niewielką liczbę oszacowań parametrów na jednostkę. Jak opisano w odpowiedzi na ten post , możesz następnie skupić się na tych oszacowaniach parametrów.

Ta odpowiedź jest z konieczności nieco niejasna - nie ma tutaj „konserwowanego” rozwiązania, a do każdego kroku potrzebna jest ogromna wiedza statystyczna, aby wybrać spośród nieskończonej liczby metod, które mogą być istotne, w zależności od twojego unikalnego problemu. Stwierdzenie zawarte w pytaniu pokazuje, że samemu rozważyłeś sporo wiedzy statystycznej, co jest godne pochwały, ale nadal masz pewne fundamentalne nieporozumienia dotyczące podstawowych pojęć statystycznych, takie jak rozróżnienie między rozkładem prawdopodobieństwa a obserwacjami z rozkładu prawdopodobieństwa . Zastanów się nad odbyciem / przeprowadzeniem kursu statystyki matematyki lub dwóch.

ahfoss
źródło