Próbuję zrozumieć metody grupowania.
Co myślę, że rozumiem:
W uczeniu nadzorowanym dane kategorii / etykiet są przypisane przed obliczeniem. Tak więc etykiety, klasy lub kategorie są używane do „uczenia się” parametrów, które są naprawdę znaczące dla tych klastrów.
W uczeniu bez nadzoru zbiory danych są przypisywane do segmentów, bez znanych klastrów.
Czy to oznacza, że jeśli nawet nie wiem, które parametry są kluczowe dla segmentacji, powinienem preferować naukę nadzorowaną?
Odpowiedzi:
Różnica polega na tym, że w nadzorowanym uczeniu się znane są „kategorie”, „klasy” lub „etykiety”. W uczeniu się bez nadzoru nie są, a proces uczenia się próbuje znaleźć odpowiednie „kategorie”. W obu rodzajach uczenia się bierze się pod uwagę wszystkie parametry w celu ustalenia, które są najbardziej odpowiednie do przeprowadzenia klasyfikacji.
To, czy wybrałeś nadzór czy nie, powinno zależeć od tego, czy wiesz, jakie są „kategorie” twoich danych. Jeśli wiesz, skorzystaj z nauki nadzorowanej. Jeśli nie wiesz, użyj bez nadzoru.
Ponieważ masz dużą liczbę parametrów i nie wiesz, które z nich są istotne, możesz użyć czegoś w rodzaju analizy składowej podstawowej, aby pomóc określić odpowiednie.
źródło
Pamiętaj, że istnieją ponad 2 stopnie nadzoru. Na przykład zobacz strony 24–25 (6-7) w rozprawie doktorskiej Christiana Biemanna, Bezobsługowe i wolne od wiedzy przetwarzanie języka naturalnego w paradygmacie odkrywania struktury, 2007.
Teza wyróżnia 4 stopnie: nadzorowany, częściowo nadzorowany, słabo nadzorowany i nienadzorowany oraz wyjaśnia różnice w kontekście przetwarzania języka naturalnego. Oto odpowiednie definicje:
źródło
W nadzorowanym nauczaniu klasy są znane z góry, a także ich rodzaje, na przykład dwie klasy dobrych i złych klientów. Kiedy nowy obiekt (klient) pojawia się na podstawie jego atrybutów, klient może zostać przypisany do złej lub dobrej klasy klienta.
W uczeniu się bez nadzoru grupy / klasy nie są jeszcze znane, mamy przedmioty (klientów), więc pogrupuj klientów mających podobne nawyki zakupowe, stąd różne grupy są tworzone z klientów, tzn. Nie są jeszcze znane na podstawie podobnych nawyków kupowania.
źródło
W nadzorowanym uczeniu się wynik (zmienna zależna) zależy od zmiennej wejściowej (zmienna niezależna). W niektórych zestawach danych superwizorów respondent próbuje obliczyć pożądany cel.
W uczeniu się bez nadzoru nie ma nadzoru, więc system próbuje dostosować się do sytuacji i uczy się ręcznie na podstawie pewnych miar.
np .: Nauczyciel w klasie - nadzór - nauka nadzorowana Samokształcenie w klasie - brak nadzoru Uczenie się bez nadzoru
źródło