Drugie pytanie dotyczy tego, że w dyskusji gdzieś w Internecie mówiłem o „nadzorowanym klastrowaniu”, o ile wiem, klastrowanie nie jest nadzorowane, więc jakie jest dokładnie znaczenie „nadzorowanego klastrowania”? Jaka jest różnica w odniesieniu do „klasyfikacji”?
Mówi o tym wiele linków:
http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf
http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf
http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf
http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf
http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf
http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf
http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf
itp ...
Odpowiedzi:
Naiwnie rozumiem, że klasyfikacja jest przeprowadzana tam, gdzie masz określony zestaw klas i chcesz sklasyfikować nową rzecz / zestaw danych do jednej z tych określonych klas.
Alternatywnie, klastrowanie nie ma na początek niczego, a wszystkie dane (w tym nowe) wykorzystujesz do rozdzielenia na klastry.
Oba używają wskaźników odległości do decydowania o sposobie klastrowania / klasyfikacji. Różnica polega na tym, że klasyfikacja opiera się na wcześniej zdefiniowanym zestawie klas, podczas gdy klastrowanie decyduje o klastrach na podstawie całych danych.
Znowu naiwnie rozumiem, że nadzorowane grupowanie wciąż grupuje na podstawie całych danych, a zatem byłoby klastrowaniem, a nie klasyfikacją.
W rzeczywistości jestem pewien, że teoria zarówno klastrowania, jak i klasyfikacji są ze sobą powiązane.
źródło
Nie sądzę, że wiem więcej niż ty, ale zamieszczone linki sugerują odpowiedzi. Jako przykład wezmę http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf . Zasadniczo stwierdzają: 1) grupowanie zależy od odległości. 2) pomyślne użycie k-średnich wymaga starannie dobranej odległości. 3) Biorąc pod uwagę dane treningowe w postaci zestawów przedmiotów z ich pożądanym podziałem, zapewniamy strukturalną metodę SVM, która uczy się pomiaru odległości, tak aby średnie k wytwarzało pożądane skupienia.W tym przypadku istnieje klaster nadzorowany, obejmujący zarówno dane szkoleniowe, jak i uczenie się. Celem tego etapu jest nauczenie się funkcji odległości, tak aby zastosowanie k-średnich grupowania z tą odległością było, miejmy nadzieję, optymalne, w zależności od tego, jak dobrze dane treningowe przypominają domenę aplikacji. Nadal obowiązują wszystkie zwykłe zastrzeżenia właściwe dla uczenia maszynowego i grupowania.
Dalsze cytowanie z artykułu: Nadzorowane grupowanie polega na automatycznym dostosowywaniu algorytmu klastrowania za pomocą zestawu szkoleniowego składającego się z zestawów przedmiotów i kompletnych partycji tych zestawów przedmiotów. . To wydaje się rozsądną definicją.
źródło
Niektóre definicje:
Nadzorowane grupowanie jest stosowane w niejawnych przykładach w celu identyfikacji klastrów o wysokiej gęstości prawdopodobieństwa do jednej klasy.
Klaster bez nadzoru jest strukturą uczenia się wykorzystującą określone funkcje obiektowe, na przykład funkcję, która minimalizuje odległości wewnątrz klastra, aby utrzymać klaster szczelnie.
Częściowo nadzorowane grupowanie ma na celu ulepszenie algorytmu klastrowania poprzez wykorzystanie informacji pobocznych w procesie klastrowania.
Postępy w sieciach neuronowych - ISNN 2010
Nie używając zbyt dużego żargonu, ponieważ jestem nowicjuszem w tej dziedzinie, sposób, w jaki rozumiem nadzorowane grupowanie, jest mniej podobny: w
nadzorowanym klastrowaniu zaczynasz od góry do dołuz pewnych predefiniowanych klas, a następnie za pomocą oddolne podejście, które można znaleźć obiekty lepiej dopasować do swoich klas.
Na przykład przeprowadziłeś badanie dotyczące ulubionego rodzaju pomarańczy w populacji.
Z wielu rodzajów pomarańczy odkryłeś, że szczególny „rodzaj” pomarańczy jest preferowany.
Jednak ten rodzaj pomarańczy jest bardzo delikatny i nieszkodliwy dla infekcji, zmian klimatu i innych czynników środowiskowych.
Więc chcesz połączyć to z innymi gatunkami, które są bardzo odporne na te zniewagi.
Następnie udajesz się do laboratorium i odnajdujesz geny odpowiedzialne za soczysty i słodki smak jednego rodzaju oraz za zdolności odpornościowe drugiego rodzaju.
Przeprowadzasz kilka eksperymentów, a kończysz na powiedzmy sto różnych podtypach pomarańczy.
Teraz interesują Cię tylko te podtypy, które idealnie pasują do opisanych właściwości.
Nie chcesz ponownie wykonywać tego samego badania w swojej populacji ...
Znasz właściwości, których szukasz w swojej doskonałej pomarańczy.
Więc uruchom analizę skupień i wybierz te, które najlepiej pasują do twoich oczekiwań.
źródło