Grupowanie z asymetrycznymi pomiarami odległości

9

Jak grupujesz obiekt za pomocą asymetrycznej miary odległości?

Załóżmy na przykład, że grupujesz zbiór danych z dniami tygodnia jako cechą - odległość od poniedziałku do piątku nie jest taka sama jak odległość od piątku do poniedziałku.

Jak włączyć to do pomiaru odległości algorytmu klastrowania?

Michał
źródło

Odpowiedzi:

3

Jeśli odległość MF jest asymetryczna, ponieważ przyszłość różni się od przeszłości, wówczas potrzebne jest prawdziwe asymetryczne grupowanie. Najpierw należy zdefiniować asymetryczną funkcję odległości.

Jednym ze sposobów na asymetryczne grupowanie, w przypadku funkcji odległości, jest osadzenie oryginalnych danych w nowej przestrzeni współrzędnych. Patrz „Geometryczne struktury niektórych modeli niedodległościowych dla asymetrycznego MDS” autorstwa Naohito Chino i Kenichi Shiraiwa, Behaviormetrika, 1992 ( pdf ). Nazywa się to HCM (Hermitian Canonical Model).

Znajdź macierz hermitowską , gdzie Znajdź wartości własne i wektory własne, a następnie przeskaluj każdy wektor własny za pomocą pierwiastka kwadratowego z odpowiadającej mu wartości własnej.H

Hij=12[d(xi,xj)+d(xj,xi)]+i12[d(xi,xj)d(xj,xi)]

To przekształca dane w przestrzeń liczb zespolonych. Po osadzeniu danych odległość między obiektami xiy wynosi tylko x * y, gdzie * jest transpozycją sprzężoną. W tym momencie możesz uruchomić k-średnich na złożonych wektorach.

Wykonano również spektralne asymetryczne grupowanie, patrz teza Stefana Emilova Ateva, „Korzystanie z asymetrii w spektralnym grupowaniu trajektorii”, University of Minnesota, 2011, który podaje kod MATLAB dla specjalnego algorytmu.

andy_a
źródło
1

Możesz przyjąć jakąś średnią (np. Średnią arytmetyczną lub, dla rozkładów prawdopodobieństwa, pierwiastek kwadratowy dywergencji Jensen-Shannon).

cyborg
źródło
1

Powinieneś rzucić okiem na statystyki cykliczne (jeśli chcesz pracować „w ciągu” tygodnia tuningu)

Lionel
źródło
1

Jeśli twoja funkcja odległości nie jest prawidłowym jądrem Mercer, to , gdzie jest macierzą Gram. W tym przypadku chcesz ko-klastrowania, zwanego również bi-klastrowaniem. Algorytmy tej klasy generują jednocześnie wskaźniki skupień dla wierszy i kolumn.XXTX

Podany przykład jest wynikiem źle dobranej miary odległości. Lepszym wskaźnikiem odległości byłby odstęp między|days apart|

Zasadniczo twoja funkcja odległości powinna być prawidłowym jądrem Mercer. Ważny jądra Mercer jest dowolną funkcją, biorąc dwie obserwacje, że jest ciągła, symetryczny i ma pozytywny określoną macierzą kowariancji .xD

Jessica Collins
źródło