Zastanawiam się, czy istnieje jakiś algorytm, który mógłby dokonać klasyfikacji i regresji w tym samym czasie. Na przykład chciałbym, aby algorytm nauczył się klasyfikatora, a jednocześnie w ramach każdej etykiety uczy się również ciągłego celu. Zatem dla każdego przykładu szkolenia ma kategoryczną etykietę i ciągłą wartość.
Mógłbym najpierw wyszkolić klasyfikatora, a następnie wyszkolić regresor w obrębie każdej wytwórni, ale myślę tylko, że jeśli istnieje algorytm, który mógłby zrobić obie rzeczy, byłoby cudownie.
Odpowiedzi:
Opisany problem można rozwiązać za pomocą regresji klas ukrytych lub regresji klastrowej lub mieszanki rozszerzającej uogólnionych modeli liniowych, które są członkami szerszej rodziny modeli mieszanych skończonych lub modeli klas ukrytych .
Nie jest to kombinacja klasyfikacji (uczenie nadzorowane) i regresji per se , ale raczej grupowanie (uczenie bez nadzoru) i regresja. Podstawowe podejście można rozszerzyć, aby przewidzieć członkostwo w klasie przy użyciu zmiennych towarzyszących, co czyni go jeszcze bliższym do tego, czego szukasz. W rzeczywistości użycie modeli klasy utajonej do klasyfikacji zostało opisane przez Vermunt i Magidson (2003), którzy zalecają to do takiego celu.
Utajona regresja klasowa
Podejście to jest w zasadzie modelem mieszanki skończonej (lub analizą klasy utajonej ) w formie
gdzie jest wektorem wszystkich parametrów, a są składnikami mieszaniny sparametryzowanymi przez , a każdy składnik pojawia się w utajonych proporcjach . Idea polega na tym, że rozkład danych jest mieszanką składników , z których każdy można opisać modelem regresji pojawiającym się z prawdopodobieństwem . Modele mieszanin skończonych są bardzo elastyczne w doborze składników i można je rozszerzyć na inne formy i mieszaniny różnych klas modeli (np. Mieszaniny analizatorów czynnikowych).ψ = ( π , ϑ ) fak ϑk πk K. fak πk fak
Prognozowanie prawdopodobieństwa przynależności do klasy na podstawie zmiennych towarzyszących
Prosty model ukrytej regresji klas można rozszerzyć o współbieżne zmienne, które przewidują przynależność do klasy (Dayton i Macready, 1998; patrz także: Linzer i Lewis, 2011; Grun i Leisch, 2008; McCutcheon, 1987; Hagenaars i McCutcheon, 2009) , w takim przypadku model staje się
gdzie znowu jest wektorem wszystkich parametrów, ale uwzględniamy również zmienne towarzyszące oraz funkcję (np. logistyczną), która jest używana do przewidywania utajonych proporcji na podstawie zmiennych towarzyszących. Możesz więc najpierw przewidzieć prawdopodobieństwo członkostwa w klasie i oszacować regresję klastrową w ramach jednego modelu.ψ w πk( w , α )
Plusy i minusy
Zaletą jest to, że jest to technika klastrowania oparta na modelach , co oznacza, że dopasowujesz modele do swoich danych, a takie modele można porównać przy użyciu różnych metod porównywania modeli (testy współczynnika wiarygodności, BIC, AIC itp. ), więc wybór ostatecznego modelu nie jest tak subiektywny, jak w przypadku ogólnej analizy skupień. Hamowanie problemu na dwa niezależne problemy związane z grupowaniem, a następnie stosowanie regresji może prowadzić do stronniczych wyników, a oszacowanie wszystkiego w jednym modelu pozwala na bardziej efektywne wykorzystanie danych.
Minusem jest to, że musisz poczynić szereg założeń dotyczących swojego modelu i przemyśleć go, więc nie jest to metoda z czarnymi skrzynkami, która po prostu zbiera dane i zwraca pewien wynik, nie zawracając sobie tym głowy. W przypadku zaszumionych danych i skomplikowanych modeli można również mieć problemy z identyfikacją modelu. Ponadto, ponieważ takie modele nie są tak popularne, nie są one powszechnie wdrażane (możesz sprawdzić świetne pakiety R
flexmix
ipoLCA
, o ile wiem, że są one również zaimplementowane w SAS i Mplus), co powoduje, że jesteś zależny od oprogramowania.Przykład
Poniżej można zobaczyć przykład takiego modelu z
flexmix
biblioteki (Leisch, 2004; Grun i Leisch, 2008) dopasowujący mieszaninę dwóch modeli regresji do gotowych danych.Jest on wizualizowany na następujących wykresach (kształty punktów to prawdziwe klasy, kolory to klasyfikacje).
Referencje i dodatkowe zasoby
Aby uzyskać więcej informacji, możesz sprawdzić następujące książki i dokumenty:
źródło