Mam zestaw danych miesięcznych dotyczących temperatury powierzchni morza (SST) i chcę zastosować metodologię klastrową do wykrywania regionów o podobnych wzorcach SST. Mam zestaw miesięcznych plików danych od 1985 do 2009 roku i chcę zastosować klastrowanie do każdego miesiąca jako pierwszy krok.
Każdy plik zawiera dane siatkowe dla 358416 punktów, z których około 50% to grunty i są oznaczone wartością 99,99, która będzie NA. Format danych to:
lon lat sst
-10.042 44.979 12.38
-9.998 44.979 12.69
-9.954 44.979 12.90
-9.910 44.979 12.90
-9.866 44.979 12.54
-9.822 44.979 12.37
-9.778 44.979 12.37
-9.734 44.979 12.51
-9.690 44.979 12.39
-9.646 44.979 12.36
Wypróbowałem metodę klastrowania CLARA i uzyskałem kilka pozornie dobrych rezultatów, ale wydaje mi się, że to tylko wygładzanie (grupowanie) izolinii. Nie jestem więc pewien, czy jest to najlepsza metoda klastrowania do analizy danych przestrzennych.
Czy istnieje inna metoda klastrowania poświęcona tego typu zestawom danych? Przydałoby się trochę odniesień, by zacząć czytać.
Z góry dziękuję.
źródło
Odpowiedzi:
Istnieje inne podejście do skalowalnego grupowania, dziel i podbij, klastrowanie równoległe i przyrostowe. Jest to ogólne podejście po użyciu normalnych metod grupowania. Dobrą metodą klastrowania, którą naprawdę doceniam, jest DBSCAN (przestrzenne grupowanie aplikacji z hałasem). Jest to jeden z najczęściej używanych algorytmów klastrowania.
źródło
Dobrze udokumentowana biblioteka Pythona do analizy przestrzennej, która ma pewne klastrowanie, to pySAL .
Inną biblioteką Pythona na etapie programowania, która koncentruje się na klastrowaniu przestrzennym, jest klasterPy (prezentacja slajdów pdf) .
Z bardziej ograniczonym wyborem algorytmów klastrowania, ale z przyjemnym interfejsem mapowania, jest oprogramowanie GUI GeoGrouper .
źródło