Czy jest jakaś różnica między odległym nadzorem, samokształceniem, samokontrolą uczenia się i słabym nadzorem?

12

Z tego co przeczytałem:


Odległy nadzór :

A Distant supervision algorithm usually has the following steps: 
1] It may have some labeled training data 
2] It "has" access to a pool of unlabeled data 
3] It has an operator that allows it to sample from this unlabeled 
   data and label them and this operator is expected to be noisy in its labels 
4] The algorithm then collectively utilizes the original labeled training data
    if it had and this new noisily labeled data to give the final output.

Samokształcenie :

wprowadź opis zdjęcia tutaj


Samokształcenie ( Yates, Alexander i wsp. „Textrunner: ekstrakcja otwartych informacji w sieci.” Proceedings of Human Language Technologies: doroczna konferencja Północnoamerykańskiego rozdziału Stowarzyszenia Lingwistyki Obliczeniowej: demonstracje. Stowarzyszenie lingwistyki obliczeniowej, 2007. ):

Uczeń działa w dwóch etapach. Po pierwsze, automatycznie określa własne dane treningowe jako pozytywne lub negatywne. Po drugie, wykorzystuje te oznaczone dane do szkolenia klasyfikatora Naive Bayes.


Słaby nadzór (Hoffmann, Raphael, i in. „Oparty na wiedzy słaby nadzór nad pozyskiwaniem informacji o pokrywających się relacjach”. Materiały z 49. dorocznego spotkania Stowarzyszenia Lingwistyki Obliczeniowej: Technologie języka ludzkiego - tom 1. Association for Computational Linguistics, 2011 .):

Bardziej obiecujące podejście, często nazywane „słabym” lub „odległym” nadzorem, tworzy własne dane szkoleniowe poprzez heurystyczne dopasowanie zawartości bazy danych do odpowiedniego tekstu.


Dla mnie to wszystko brzmi tak samo, z tym wyjątkiem, że samokształcenie wydaje się nieco inne, ponieważ heurystyka etykietowania jest wyszkolonym klasyfikatorem, a między fazą znakowania a fazą szkolenia klasyfikatora występuje pętla. Jednak Yao, Limin, Sebastian Riedel i Andrew McCallum. „ Zbiorowa ekstrakcja relacji między dokumentami bez danych oznakowanych. ” Materiały z konferencji w 2010 r. Na temat metod empirycznych w przetwarzaniu języka naturalnego. Association for Computational Linguistics, 2010. twierdzą, że nadzór na odległość == samokształcenie == słaby nadzór.

Czy są też inne synonimy ?

Franck Dernoncourt
źródło
Interesujące pytanie. Czy to może należeć do Data Science?
goangit
@goangit Prawdopodobnie jak spory kawałek tej strony;)
Franck Dernoncourt

Odpowiedzi:

8

fa

fa

Tradycyjnie w każdym dokumencie dotyczącym uczenia maszynowego na temat uczenia się nadzorowanego można stwierdzić, że w dokumencie domyślnie zakłada się, że dane szkoleniowe są dostępne i dla jakiej wartości, zwykle zakłada się, że etykiety są dokładne i że nie ma w nich dwuznaczności które są podawane do instancji w danych treningowych. Jednak z odległymi / słabymi dokumentami nadzoru ludzie zdali sobie sprawę, że ich dane szkoleniowe mają nieprecyzyjne etykiety, a tym, co zwykle chcą podkreślić w swojej pracy, jest to, że uzyskują dobre wyniki pomimo oczywistej wady stosowania nieprecyzyjnych etykiet (i mogą mieć inne metody algorytmiczne w celu przezwyciężenia problemu nieprecyzyjnych etykiet, poprzez dodatkowy proces filtrowania itp. i zwykle gazety chcieliby podkreślić, że te dodatkowe procesy są ważne i przydatne). Doprowadziło to do sformułowania „słaby” lub „odległy”, aby wskazać, że etykiety na danych treningowych są nieprecyzyjne. Zauważ, że niekoniecznie wpływa to na aspekt uczenia się klasyfikatora. Klasyfikator, którego używają ci faceci, nadal domyślnie zakłada, że ​​etykiety są precyzyjne, a algorytm treningowy prawie nigdy nie ulega zmianie.

Z drugiej strony samokształcenie jest w tym sensie wyjątkowe. Jak już zauważyłeś, uzyskuje etykiety z własnego klasyfikatora i ma trochę pętli sprzężenia zwrotnego do korekty. Zasadniczo badamy nadzorowane klasyfikatory pod nieco szerszym zakresem algorytmów „indukcyjnych”, w których nauczyty klasyfikator jest wnioskiem indukcyjnym dokonanym na podstawie danych szkoleniowych na temat całych danych. Ludzie badali inną formę, którą nazywamy wnioskowaniem transdukcyjnym, w której ogólne wnioskowanie indukcyjne nie jest wyjściem algorytmu, ale algorytm zbiorowo przyjmuje zarówno dane treningowe, jak i dane testowe jako dane wejściowe i tworzy etykiety na danych testowych. Jednak ludzie zorientowali się, dlaczego nie zastosować wnioskowania transdukcyjnego w ramach uczenia indukcyjnego, aby uzyskać klasyfikator z większymi danymi treningowymi.

Mam nadzieję, że nie pomyliłem cię, nie wahaj się komentować i w razie potrzeby poprosić o dodatkowe wyjaśnienia.

[1] Może być przydatny - http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/pdf2527.pdf

TenaliRaman
źródło
Dzięki, twoja odpowiedź jest bardzo interesująca! Co powiesz na samokształcenie? Taki sam jak nadzór na odległość / słaby?
Franck Dernoncourt
1
Tak. Nie widzę szczególnie różnicy między samouczeniem się a odległym / słabym nadzorem, ponieważ etykiety są uzyskiwane oddzielnie od nieprecyzyjnego źródła, a następnie podawane do nadzorowanego klasyfikatora.
TenaliRaman