Wskaźniki wydajności do oceny uczenia się bez nadzoru

49

Czy w odniesieniu do uczenia się bez nadzoru (takiego jak klastrowanie) istnieją jakieś wskaźniki pozwalające ocenić wydajność?

użytkownik3125
źródło
możliwy duplikat miary oceny skupienia (bez etykiet prawdy)
steffen
4
Myślę, że to pytanie jest bardziej ogólne niż tamte, dlatego głosuję za pozostawieniem tego pytania otwartego.
Peter Flom - Przywróć Monikę
Mam to samo pytanie, które masz, i niektóre (jak dotąd nie do końca przeczytane) odnośniki są istotne: Ankieta na temat wewnętrznej miary ważności dla walidacji klastra L.Jegatha Deborah, R.Baskaran, A.Kannan i techniki pomiaru klastra Ferenc Kovács, Csaba Legány, Attila Babos
kasterma

Odpowiedzi:

44

W pewnym sensie myślę, że to pytanie jest niemożliwe do odpowiedzi. Mówię to, ponieważ to, jak dobrze sprawdza się konkretna metoda bez nadzoru, będzie w dużej mierze zależeć od tego, dlaczego w pierwszej kolejności odbywa się nauka bez nadzoru, tj. Czy metoda działa dobrze w kontekście celu końcowego? Oczywiście nie jest to do końca prawdą, ludzie pracują nad tymi problemami i publikują wyniki, które zawierają jakąś ocenę. Poniżej przedstawię kilka metod, które znam.

Dobrym zasobem (z odniesieniami) do klastrowania jest strona dokumentacji sklearn, Ocena wydajności klastrowania . Dotyczy to kilku metod, ale wszystkie oprócz jednego, Współczynnik sylwetki, zakładają, że dostępne są etykiety naziemne. Metodę tę wspomniano również w pytaniu Miara oceny klastrowania , powiązana z komentarzami do tego pytania.

Jeśli Twoja metoda uczenia się bez nadzoru jest probabilistyczna, inną opcją jest oszacowanie pewnej miary prawdopodobieństwa (prawdopodobieństwo logarytmiczne, zakłopotanie itp.) Na temat wstrzymanych danych. Motywacja polega na tym, że jeśli twoja metoda nauki bez nadzoru przypisuje wysokie prawdopodobieństwo do podobnych danych, które nie zostały użyte do dopasowania parametrów, prawdopodobnie wykonała dobrą robotę, przechwytując rozkład zainteresowania. Dziedziną, w której ten typ oceny jest powszechnie stosowany, jest modelowanie języka.

Ostatnią opcją, o której wspomnę, jest użycie nadzorowanego ucznia w powiązanym zadaniu pomocniczym. Jeśli Twoja metoda bez nadzoru wytwarza zmienne ukryte, możesz pomyśleć o tych zmiennych ukrytych jako reprezentacji danych wejściowych. Dlatego sensowne jest wykorzystanie tych ukrytych zmiennych jako danych wejściowych dla nadzorowanego klasyfikatora wykonującego pewne zadania związane z domeną, z której pochodzą dane. Wydajność metody nadzorowanej może następnie służyć jako surogat dla wydajności ucznia bez nadzoru. Jest to zasadniczo konfiguracja, którą widzisz w większości prac nad uczeniem się reprezentacji.

Ten opis jest prawdopodobnie trochę mglisty, więc dam konkretny przykład. Prawie cała praca nad uczeniem się reprezentacji słów wykorzystuje następujące podejście do oceny:

  1. Dowiedz się reprezentacji słów za pomocą ucznia bez nadzoru.
  2. Wykorzystaj wyuczone reprezentacje jako dane wejściowe dla nadzorowanego ucznia wykonującego niektóre zadania NLP, takie jak części znakowania mowy lub rozpoznawania nazwanych jednostek.
  3. Oceń wydajność ucznia bez nadzoru poprzez jego zdolność do poprawy wydajności uczonego pod nadzorem w porównaniu do linii bazowej przy użyciu standardowej reprezentacji, takiej jak funkcje obecności słów binarnych, jako dane wejściowe.

Przykład takiego podejścia można znaleźć w artykule Szkolenie ograniczone Maszyny Boltzmanna w zakresie obserwacji słownych przez Dahla i in.

alt
źródło
11
+1 „to, jak dobrze sprawdza się konkretna metoda bez nadzoru, będzie w dużej mierze zależeć od tego, dlaczego uczymy się bez nadzoru ” - to właściwie podsumowanie. Nie szukaj magicznej liczby, której możesz w jakiś sposób usprawiedliwić dany wynik bez faktycznej interpretacji wyniku .
Marc Claesen,
1
Dodałbym również, że stosowanie nadzorowanego podejścia jako proxy do tego, jak dobrze działa podejście bez nadzoru, nie wymaga odkrywania nowych funkcji. Na przykład klastrowanie nie uczy się nowych funkcji, ale klastrowanie jest często stosowane w celu poprawy dokładności prognoz nadzorowanego ucznia, z dodatkową korzyścią wyjaśnienia, dlaczego tak się dzieje. Na przykład, k-średnie grupowanie może dawać prognozy k, które są ulepszane poprzez wykorzystanie odkrytej struktury i kompresji z grupowania. Zobacz ttic.uchicago.edu/~shubhendu/Papers/clustering_bagging.pdf
Cybernetyczny