Obecnie próbuję przeanalizować zestaw danych dokumentu tekstowego, który nie ma podstawowej prawdy. Powiedziano mi, że możesz użyć k-krotnego sprawdzania poprawności, aby porównać różne metody klastrowania. Jednak przykłady, które widziałem w przeszłości, wykorzystują podstawową prawdę. Czy istnieje sposób na użycie zestawu K-fold w tym zestawie danych do zweryfikowania moich wyników?
Próbuję zrozumieć, w jaki sposób zastosowałbyś walidację krzyżową do metody klastrowania, takiej jak k-średnie, ponieważ nowe nadchodzące dane zmienią centroid, a nawet rozkłady klastrowania na istniejącym.
Jeśli chodzi o nienadzorowane sprawdzanie poprawności klastrowania, może być konieczne oszacowanie stabilności algorytmów przy użyciu innego numeru klastra na ponownie próbkowanych danych.
Podstawową ideę stabilności klastrowania pokazano na poniższym rysunku:
Można zauważyć, że przy liczbie klastrów 2 lub 5 istnieją co najmniej dwa różne wyniki klastrowania (patrz dzielące linie kreskowe na rysunkach), ale przy liczbie klastrowania 4 wynik jest względnie stabilny.
Stabilność grupowania: pomocne może być omówienie Ulrike von Luxburg .
źródło
Dla ułatwienia wyjaśnień i jasności zainicjowałbym klastrowanie.
Ogólnie rzecz biorąc, możesz użyć takich ponownie próbkowanych klastrów, aby zmierzyć stabilność swojego rozwiązania: czy w ogóle się nie zmienia, czy całkowicie się zmienia?
Nawet jeśli nie masz podstawowej prawdy, możesz oczywiście porównać klastrowanie wynikające z różnych przebiegów tej samej metody (ponowne próbkowanie) lub wyniki różnych algorytmów klastrowania, np. Poprzez zestawienie:
ponieważ klastry są nominalne, ich kolejność może się zmieniać dowolnie. Ale to oznacza, że możesz zmienić kolejność, aby klastry odpowiadały. Następnie elementy ukośne * liczą przypadki przypisane do tego samego klastra, a elementy nie przekątne pokazują, w jaki sposób zmieniły się przypisania:
Powiedziałbym, że ponowne próbkowanie jest dobre, aby ustalić, jak stabilne jest twoje grupowanie w ramach każdej metody. Bez tego porównywanie wyników z innymi metodami nie ma większego sensu.
Nie łączysz walidacji krzyżowej k-fold z klastrowaniem k-średnich, prawda?
źródło
Opublikowano niedawno publikację na temat metody walidacji dwukrotnej do określania liczby klastrów tutaj .
i ktoś próbuje wdrożyć za pomocą sci-kit, dowiedz się tutaj .
źródło