Jednym z największych problemów związanych z analizą skupień jest to, że może się zdarzyć, że będziemy musieli wyciągnąć odmienne wnioski, gdy oprą się na różnych zastosowanych metodach klastrowania (w tym różnych metodach łączenia w hierarchicznym klastrze).
Chciałbym poznać Twoją opinię na ten temat - którą metodę wybierzesz i jak. Można powiedzieć, że „najlepszą metodą grupowania jest odpowiednia odpowiedź”; ale w odpowiedzi mogę zapytać, czy analiza skupień ma być techniką bez nadzoru - skąd mam wiedzieć, która metoda lub połączenie jest właściwą odpowiedzią?
Ogólnie: czy sam klaster jest wystarczająco solidny, aby na nim polegać? Czy potrzebujemy drugiej metody i uzyskamy wspólny wynik, który będzie oparty na obu?
Moje pytanie dotyczy nie tylko możliwych sposobów sprawdzania / oceny wydajności klastrowania, ale jest szersze - na jakiej podstawie wybieramy / preferujemy jedną metodę / algorytm klastrowania nad inną. Czy są też powszechne ostrzeżenia , które powinniśmy rozejrzeć, wybierając metodę klastrowania naszych danych?
Wiem, że jest to bardzo ogólne pytanie i bardzo trudno na nie odpowiedzieć. Chciałbym tylko wiedzieć, czy masz jakieś uwagi, porady lub sugestie, aby dowiedzieć się więcej na ten temat.
Odpowiedzi:
Często mówią, że nie ma innej techniki analitycznej tak silnej jak „jak siejesz, będziesz kosić”, podobnie jak analiza skupień.
Mogę sobie wyobrazić wiele wymiarów lub aspektów „słuszności” tej lub innej metody grupowania :
Metafora klastrowa . „Wolałem tę metodę, ponieważ tworzy ona takie klastry (lub taki sposób), które odpowiadają mojej koncepcji klastra w moim konkretnym projekcie” . Każdy algorytm klastrowy lub podklucz / metoda implikuje odpowiednią strukturę / budowę / kształt klastra. W odniesieniu do metod hierarchicznych zaobserwowałem to w jednym z punktów tutaj , a także tutaj. Tzn. Niektóre metody dają klastry, które są prototypowo „typami”, inne dają „koła [według zainteresowań]”, jeszcze inne „[polityczne] platformy”, „klasy”, „łańcuchy” itp. Wybierz tę metodę, która metafora klastrów Ci odpowiada. Na przykład, jeśli widzę moje segmenty klientów jako typy - bardziej lub mniej kuliste kształty z zagęszczeniem (ami) w środku, wybiorę metodę wiązania Warda lub K-środków, ale nigdy nie metodę pojedynczego połączenia, wyraźnie. Jeśli potrzebuję centralnego reprezentatywnego punktu, mógłbym użyć metody medoidalnej. Jeśli potrzebuję sprawdzić punkty pod kątem ich rdzenia i urządzeń peryferyjnych, mógłbym zastosować podejście DBSCAN.
Założenia dotyczące danych / metod . „Wolałem tę metodę, ponieważ moja natura lub format danych predysponuje ją” . Ten ważny i rozległy punkt jest również wspomniany w moim linku powyżej. Różne algorytmy / metody mogą wymagać dla nich różnego rodzaju danych lub różnych miar bliskości, które mają być zastosowane do danych, i odwrotnie, różne dane mogą wymagać różnych metod. Istnieją metody dla danych ilościowych i metody dla danych jakościowych. Mieszanka cech ilościowych i jakościowych dramatycznie zawęża zakres wyboru między metodami. Środki Totemu lub K.opierają się - wprost lub pośrednio - tylko na (kwadratowej) odległości euklidesowej odległości, a nie na arbitralnej metodzie. Dane binarne mogą wymagać specjalnych miar podobieństwa, które z kolei będą silnie kwestionować niektóre metody, na przykład Warda lub K. Duże zbiory danych mogą wymagać specjalnych algorytmów lub specjalnych implementacji.
Ważność zewnętrzna . „Wolałem tę metodę, ponieważ dała mi klastry, które różnią się ich pochodzeniem lub klastry, które pasują do prawdziwych, które znam” . Jeśli partycja klastrowa przedstawia klastry, które są wyraźnie różne na niektórych ważnych podstawach (tj. Nie uczestniczyły w analizie klastrowej), to jest zaletą tej metody, która utworzyła partycję. Użyj dowolnej analizy, która ma zastosowanie, aby sprawdzić różnicę; istnieje również szereg użytecznych kryteriów klastrowania zewnętrznego(Rand, miara F itp.). Innym wariantem zewnętrznego sprawdzania poprawności jest to, że w jakiś sposób znasz prawdziwe klastry w swoich danych (znasz „prawdę podstawową”), na przykład kiedy sam wygenerowałeś klastry. Zatem, jak dokładnie twoja metoda klastrowania jest w stanie odkryć prawdziwe klastry, jest miarą zewnętrznej ważności.
Ważność krzyżowa . „Wolałem tę metodę, ponieważ daje mi bardzo podobne klastry na równoważnych próbkach danych lub dobrze ekstrapoluje na takie próbki” . Istnieją różne podejścia i ich hybrydy, niektóre bardziej wykonalne w przypadku niektórych metod grupowania, a inne w przypadku innych metod. Dwa główne podejścia to sprawdzenie stabilności i uogólnienieczek. Sprawdzając stabilność metody klastrowania, jeden losowo dzieli lub ponownie próbkuje dane w częściowo przecinających się lub całkowicie rozłącznych zestawach i wykonuje grupowanie na każdym; następnie dopasowuje i porównuje rozwiązania z pewną wschodzącą cechą klastra (na przykład centralną lokalizacją tendencji klastra), czy jest stabilna w zestawach. Sprawdzanie uogólnienia oznacza przeprowadzanie klastrowania w zestawie pociągów, a następnie wykorzystanie jego nowo powstającej charakterystyki lub reguły klastra do przypisania obiektów zestawu testowego, a także wykonanie klastrowania w zestawie testowym. Następnie porównuje się przydział członkostwa i wynik grupowania członkostwa w klastrze obiektów zestawu testowego.
Interpretacja . „Wolałem tę metodę, ponieważ dała mi ona klastry, które, jak wyjaśniono, są najbardziej przekonujące, że na świecie jest jakieś znaczenie” . To nie jest statystyczna - to twoja psychologiczna walidacja. Jak znaczące są wyniki dla Ciebie, domeny i potencjalnie odbiorców / klientów. Wybierz metodę dającą najbardziej zrozumiałe, ostre wyniki.
Towarzyskość . Niektóre badania regularnie, a wszystkie badania od czasu do czasu mówią: „Wolałem tę metodę, ponieważ dała z moimi danymi podobne wyniki z wieloma innymi metodami spośród wszystkich tych, które sondowałem” . Jest to heurystyczna, ale wątpliwa strategia, która zakłada, że istnieją dość uniwersalne dane lub dość uniwersalna metoda.
Punkty 1 i 2 są teoretyczne i poprzedzają uzyskanie wyniku; na tych punktach opiera się wyłącznie wyniosła, pewna siebie strategia eksploracyjna. Punkty 3, 4 i 5 są empiryczne i podążają za wynikiem; na tych punktach opiera się wyłącznie podejrzana, wypróbowana strategia eksploracyjna. Punkt 6 jest kreatywny, co oznacza, że zaprzecza jakiemukolwiek wynikowi, aby spróbować go usprawiedliwić. Punkt 7 jest lojalnym mauvaise foi.
Punkty od 3 do 7 mogą być również oceniane przy wyborze „najlepszej” liczby klastrów .
źródło
Są to głównie kryteria czerwonej flagi . Właściwości danych, które mówią, że pewne podejście na pewno zawiedzie.
jeśli nie masz pojęcia, co oznaczają twoje dane , przestań je analizować. zgadujesz tylko zwierzęta w chmurach.
jeśli atrybuty różnią się skalą i są nieliniowe lub pochylone. może to zrujnować Twoją analizę, chyba że masz bardzo dobry pomysł na odpowiednią normalizację. Zatrzymaj się i naucz się rozumieć swoje funkcje, jest zbyt wcześnie, aby je klastować.
jeśli każdy atrybut jest równoważny (ta sama skala) i liniowy, a chcesz skwantyzować swój zestaw danych (a błąd najmniejszych kwadratów ma znaczenie dla danych), to warto spróbować k-średnich. Jeśli Twoje atrybuty są innego rodzaju i skali, wynik nie jest dobrze zdefiniowany. Przeciwprzykład: wiek i dochód. Dochód jest bardzo wypaczony i
x years = y dollar
jest nonsensowny.jeśli masz bardzo jasne pojęcie o tym, jak oszacować podobieństwo lub odległość (w znaczący sposób; zdolność do obliczenia pewnej liczby nie wystarczy), dobrym wyborem jest klastrowanie hierarchiczne i DBSCAN. Jeśli nie masz pojęcia, jak oszacować podobieństwo, najpierw rozwiąż ten problem.
Widzisz, że najczęstszym problemem jest to, że ludzie próbują zrzucić swoje surowe dane do tworzenia klastrów, kiedy najpierw muszą je zrozumieć i znormalizować, a także ustalić podobieństwo.
Przykłady:
Piksele obrazu w przestrzeni RGB. Najmniejsze kwadraty mają pewien sens i wszystkie atrybuty są porównywalne - k-średnich jest dobrym wyborem.
Dane geograficzne: najmniejsze kwadraty nie są zbyt odpowiednie. będą wartości odstające. ale odległość jest bardzo znacząca. Użyj DBSCAN, jeśli masz dużo hałasu, lub HAC (hierarchiczne skupienie aglomeracyjne), jeśli masz bardzo czyste dane.
Gatunek obserwowany w różnych siedliskach. Najmniejsze kwadraty są wątpliwe, ale np. Podobieństwo Jaccard jest znaczące. Prawdopodobnie masz tylko kilka obserwacji i nie ma „fałszywych” siedlisk - użyj HAC.
źródło
stop criteria
. Ponieważ, jak wiadomo, „reguły zatrzymywania” lub „kryteria zatrzymywania” są synonimem „wewnętrznych kryteriów klastrowania” w dziedzinie klastrowania hierarchicznego. Jest to więc zajęty termin. Ale masz na myśli te słowa w innym znaczeniu w odpowiedzi, co może dezorientować czytelnika.(non)linear attributes
. Co masz na myśli? W jaki sposób atrybut „liniowy”? czy mówisz o liniowych relacjach , tj. elipsoidalnych (a nie zakrzywionych) kształtach klastrów?Nie sądzę, aby istniał dobry sposób na to; Myślę, że merytoryczne są dobre rozwiązania.
Oczywiście możesz spróbować podzielić dane i utworzyć klaster wiele razy, i tak jeden, ale nadal pozostaje pytanie, które z nich jest przydatne.
źródło