Nadzorowane grupowanie lub klasyfikacja?

22

Drugie pytanie dotyczy tego, że w dyskusji gdzieś w Internecie mówiłem o „nadzorowanym klastrowaniu”, o ile wiem, klastrowanie nie jest nadzorowane, więc jakie jest dokładnie znaczenie „nadzorowanego klastrowania”? Jaka jest różnica w odniesieniu do „klasyfikacji”?

Mówi o tym wiele linków:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

itp ...

shn
źródło
proszę podać link „dyskusji gdzieś w sieci”
Atilla Ozgur,
1
„Klastrowanie” jest synonimem „klasyfikacji bez nadzoru”, dlatego też „klaster nadzorowany” jest oksymoronem. Można jednak argumentować, że samoorganizujące się mapy są nadzorowaną techniką stosowaną do klasyfikacji bez nadzoru, która byłaby najbliższa „nadzorowanemu grupowaniu”.
Digio,
O ile dotychczas rozumiem, „korzystamy z klastrowania, aby uporządkować dane w celu przygotowania ich do dalszego przetwarzania lub przynajmniej w celu dalszej analizy”, dlatego w klastrowaniu dzielimy dane na klasy A, B, C i tak dalej ... Więc teraz te dane są w jakiś sposób nadzorowane. Teraz zależy to od tego, co chcesz zrobić z tymi danymi lub w jaki sposób te dane mogą być dla Ciebie przydatne, czy to w przypadku operacji klasyfikacji, czy regresji. Popraw mnie, jeśli się mylę.
sak

Odpowiedzi:

2

Naiwnie rozumiem, że klasyfikacja jest przeprowadzana tam, gdzie masz określony zestaw klas i chcesz sklasyfikować nową rzecz / zestaw danych do jednej z tych określonych klas.

Alternatywnie, klastrowanie nie ma na początek niczego, a wszystkie dane (w tym nowe) wykorzystujesz do rozdzielenia na klastry.

Oba używają wskaźników odległości do decydowania o sposobie klastrowania / klasyfikacji. Różnica polega na tym, że klasyfikacja opiera się na wcześniej zdefiniowanym zestawie klas, podczas gdy klastrowanie decyduje o klastrach na podstawie całych danych.

Znowu naiwnie rozumiem, że nadzorowane grupowanie wciąż grupuje na podstawie całych danych, a zatem byłoby klastrowaniem, a nie klasyfikacją.

W rzeczywistości jestem pewien, że teoria zarówno klastrowania, jak i klasyfikacji są ze sobą powiązane.

adunaic
źródło
Pokornie się nie zgadzam. Sugerujesz, że „klasyfikacja” jest z definicji i domyślnie procesem nadzorowanym, co nie jest prawdą. Klasyfikacja podzielona jest na przypadki nadzorowane i nienadzorowane, przy czym te ostatnie są synonimem grupowania.
Digio,
15

Nie sądzę, że wiem więcej niż ty, ale zamieszczone linki sugerują odpowiedzi. Jako przykład wezmę http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf . Zasadniczo stwierdzają: 1) grupowanie zależy od odległości. 2) pomyślne użycie k-średnich wymaga starannie dobranej odległości. 3) Biorąc pod uwagę dane treningowe w postaci zestawów przedmiotów z ich pożądanym podziałem, zapewniamy strukturalną metodę SVM, która uczy się pomiaru odległości, tak aby średnie k wytwarzało pożądane skupienia.W tym przypadku istnieje klaster nadzorowany, obejmujący zarówno dane szkoleniowe, jak i uczenie się. Celem tego etapu jest nauczenie się funkcji odległości, tak aby zastosowanie k-średnich grupowania z tą odległością było, miejmy nadzieję, optymalne, w zależności od tego, jak dobrze dane treningowe przypominają domenę aplikacji. Nadal obowiązują wszystkie zwykłe zastrzeżenia właściwe dla uczenia maszynowego i grupowania.

Dalsze cytowanie z artykułu: Nadzorowane grupowanie polega na automatycznym dostosowywaniu algorytmu klastrowania za pomocą zestawu szkoleniowego składającego się z zestawów przedmiotów i kompletnych partycji tych zestawów przedmiotów. . To wydaje się rozsądną definicją.

micans
źródło
Problem polega po prostu na tym: dlaczego chcesz nauczyć się pomiaru odległości na podstawie zbioru oznaczonych danych treningowych, a następnie zastosować ten pomiar odległości za pomocą metody grupowania; dlaczego nie użyłbyś po prostu nadzorowanej metody. Innymi słowy, chcesz wykonywać grupowanie (tj. Dzielenie zestawu danych na klastry), ale zakładasz, że masz już kompletny pożądany podział na partycje i że użyjesz go do nauczenia się odległości, a następnie zastosuj grupowanie tego zestawu danych przy użyciu tego wyuczonego dystans. W najlepszym razie otrzymasz te same partycje, których użyłeś do nauki miary odległości! Już masz
shn
W przypadku pisania „następnie zastosuj grupowanie w tym zbiorze danych„ zastąp ”, a następnie zastosuj grupowanie w podobnych zestawach danych”. Oto taki scenariusz: w eksperymencie X mamy dane A i B. A służy do grupowania, B pomaga w uczeniu się na odległość. B ustanawia złoty standard i jest prawdopodobnie kosztowny do zdobycia. W kolejnych eksperymentach X2, X3 .. otrzymujemy A, ale nie stać nas na uzyskanie B.
micans
Ok, teraz, kiedy mówisz „uczenie się odległości” z zestawu danych B: czy masz na myśli „uczenie się pewnej wartości progu odległości” czy „uczenie się funkcji pomiaru odległości” (rodzaj sparametryzowanej miary podobieństwa)?
shn
1
Mam na myśli drugie, „uczenie się funkcji pomiaru odległości”. Nawiasem mówiąc, po przeczytaniu więcej moich prostych sformułowań A i B można znaleźć w cytowanym manuskrypcie: „Biorąc pod uwagę przykłady szkolenia zestawów przedmiotów z ich prawidłowym zestawieniem, celem jest poznanie miary podobieństwa, aby przyszłe zestawy przedmiotów były grupowane w podobny sposób."
micans
1
Wydaje się zatem, że „klaster nadzorowany” jest bardzo podobny do tego, co nazywa się „klastrowaniem częściowo nadzorowanym”. Do tej pory tak naprawdę nie widzę żadnej różnicy. Nawiasem mówiąc, w niektórych innych artykułach „(częściowo) nadzorowane grupowanie” nie odnosi się do „tworzenia zmodyfikowanej funkcji odległości”, która ma być stosowana do podobnego klastrowania przyszłych zbiorów danych; chodzi raczej o „modyfikację samego algorytmu klastrowania” bez zmiany funkcji odległości!
shn
3

Niektóre definicje:

Nadzorowane grupowanie jest stosowane w niejawnych przykładach w celu identyfikacji klastrów o wysokiej gęstości prawdopodobieństwa do jednej klasy.

Klaster bez nadzoru jest strukturą uczenia się wykorzystującą określone funkcje obiektowe, na przykład funkcję, która minimalizuje odległości wewnątrz klastra, aby utrzymać klaster szczelnie.

Częściowo nadzorowane grupowanie ma na celu ulepszenie algorytmu klastrowania poprzez wykorzystanie informacji pobocznych w procesie klastrowania.

Postępy w sieciach neuronowych - ISNN 2010

Nie używając zbyt dużego żargonu, ponieważ jestem nowicjuszem w tej dziedzinie, sposób, w jaki rozumiem nadzorowane grupowanie, jest mniej podobny: w

nadzorowanym klastrowaniu zaczynasz od góry do dołuz pewnych predefiniowanych klas, a następnie za pomocą oddolne podejście, które można znaleźć obiekty lepiej dopasować do swoich klas.

Na przykład przeprowadziłeś badanie dotyczące ulubionego rodzaju pomarańczy w populacji.
Z wielu rodzajów pomarańczy odkryłeś, że szczególny „rodzaj” pomarańczy jest preferowany.
Jednak ten rodzaj pomarańczy jest bardzo delikatny i nieszkodliwy dla infekcji, zmian klimatu i innych czynników środowiskowych.
Więc chcesz połączyć to z innymi gatunkami, które są bardzo odporne na te zniewagi.
Następnie udajesz się do laboratorium i odnajdujesz geny odpowiedzialne za soczysty i słodki smak jednego rodzaju oraz za zdolności odpornościowe drugiego rodzaju.
Przeprowadzasz kilka eksperymentów, a kończysz na powiedzmy sto różnych podtypach pomarańczy.
Teraz interesują Cię tylko te podtypy, które idealnie pasują do opisanych właściwości.
Nie chcesz ponownie wykonywać tego samego badania w swojej populacji ...
Znasz właściwości, których szukasz w swojej doskonałej pomarańczy.
Więc uruchom analizę skupień i wybierz te, które najlepiej pasują do twoich oczekiwań.

Diego
źródło