DBSCAN jest najczęściej cytowanym algorytmem klastrowania według literatury i może znaleźć klastry o dowolnym kształcie na podstawie gęstości. Ma dwa parametry eps (jako promień sąsiedztwa) i minPts (jako minimalni sąsiedzi, aby uznać punkt za punkt centralny), co moim zdaniem w dużym stopniu zależy od nich.
Czy istnieje jakaś rutynowa lub powszechnie stosowana metoda wyboru tych parametrów?
clustering
dbscan
Mehraban
źródło
źródło
Odpowiedzi:
Istnieje wiele publikacji, które proponują metody wyboru tych parametrów.
Najbardziej godna uwagi jest OPTICS, odmiana DBSCAN, która eliminuje parametr epsilon; daje wynik hierarchiczny, który można z grubsza postrzegać jako „uruchamianie DBSCAN z każdym możliwym epsilon”.
W przypadku MinPts sugeruję, aby nie polegać na automatycznej metodzie, ale na wiedzy o Twojej domenie .
Dobry algorytm grupowania ma parametry, które pozwalają dostosować go do własnych potrzeb.
Parametrem, który przeoczyłeś, jest funkcja odległości. Pierwszą rzeczą do zrobienia dla DBSCAN jest znalezienie dobrej funkcji odległości dla twojej aplikacji . Nie polegaj na tym, że odległość euklidesowa jest najlepsza dla każdego zastosowania!
źródło
k
Dla klasyfikacji najbliższego sąsiada, możesz powiedzieć to samo dla parametru minPts. Myślę, że główna różnica polega na tym, że w przypadku odległości istnieje „często” rozsądna wartość domyślna: odległość euklidesowa; podczas gdy dla MinPts wartość będzie zależała od danych.