Staram się przewidzieć sukces lub porażkę uczniów na podstawie niektórych funkcji za pomocą modelu regresji logistycznej. Aby poprawić wydajność modelu, już myślałem o podzieleniu uczniów na różne grupy w oparciu o oczywiste różnice i zbudowaniu osobnych modeli dla każdej grupy. Sądzę jednak, że identyfikacja tych grup na podstawie badań może być trudna, więc pomyślałem o podzieleniu uczniów przez grupowanie ich cech. Czy jest to powszechna praktyka w budowaniu takich modeli? Czy sugerowałbyś, żebym podzielił go na oczywiste grupy (na przykład studentów pierwszego semestru vs. studentów powracających), a następnie przeprowadzę grupowanie tych grup lub skupienie od samego początku?
Aby spróbować wyjaśnić:Mam na myśli to, że rozważam użycie algorytmu klastrowania, aby rozbić mój zestaw treningowy regresji logistycznej na grupy. Następnie wykonałbym osobne regresje logistyczne dla każdej z tych grup. Następnie, stosując regresję logistyczną do przewidywania wyników dla ucznia, wybrałbym model, który zastosować, na podstawie grupy, do której najlepiej pasują.
Być może mógłbym zrobić to samo, dołączając identyfikator grupy, na przykład 1, jeśli uczeń powraca, a 0, jeśli nie.
Teraz zastanawiam się, czy może być korzystne grupowanie zestawu danych treningowych i używanie ich etykiety klastrowej jako funkcji w regresji logistycznej, zamiast budowania osobnych modeli regresji logistycznej dla każdej populacji.
Jeśli użyteczne jest podanie identyfikatora grupy dla tych, którzy powracają, a nowych studentów, to czy przydatne może być również rozszerzenie listy grup? Grupowanie wydaje się naturalnym sposobem na zrobienie tego.
Mam nadzieję, że to jasne ...
Odpowiedzi:
Uważam, że jeśli masz znaczną różnicę w zmiennej zależnej między swoimi klastrami, wówczas podejście klastrowania na pewno będzie zdecydowanie. Niezależnie od wybranego algorytmu uczenia się.
Moim zdaniem uruchomienie algorytmu uczenia się na całej podstawie może ukryć znaczące różnice na niższym poziomie agregacji.
Każdy, kto słyszał o paradoksie Simpsona, jest to trudny przypadek głębszego problemu, w którym masz różne korelacje w różnych grupach, które są pokrywane przez większy hałas próbki lub słabsze korelacje w większej grupie.
źródło
Proponowane ogólne podejście - użycie ukrytych partycji do przypisania różnych punktów danych do różnych podstawowych klasyfikatorów - jest dobrze zbadanym podejściem do klasyfikacji.
Prawdopodobnie przyczyną tego, że metody te nie są powszechnie stosowane, są stosunkowo skomplikowane i dłuższe czasy działania niż regresja logistyczna lub maszyny SVM. W wielu przypadkach wydaje się, że mogą one prowadzić do lepszej wydajności klasyfikacji.
Oto kilka referencji:
Shahbaba, B. and Neal, R. „Modele nieliniowe z zastosowaniem mieszanin procesowych Dirichleta”
Zhu, J. i Chen, N. i Xing, EP „Infinite Latent SVM for Classification and Multi-task Learning”
Rasmussen, CE i Ghahramani, Z. „Nieskończone mieszanki ekspertów procesów gaussowskich”
Meeds, E. i Osindero, S. „Alternatywna nieskończona mieszanina ekspertów procesu Gaussa”
źródło
Chcę od początku przyznać, że stosunkowo mało wiem o klastrowaniu. Nie widzę jednak sensu opisywanej procedury. Jeśli na przykład uważasz, że pierwszy semestr w stosunku do powracających studentów może być inny, dlaczego nie uwzględnić współzmiennej, która to indeksuje? Podobnie, jeśli uważasz, że inna funkcja uczniów jest istotna, możesz to również uwzględnić. Jeśli obawiasz się, że związek między twoim głównym predyktorem zainteresowania a wskaźnikiem sukcesu może się różnić, możesz również uwzględnić interakcję między tym predyktorem a pierwszym terminem a zwrotem itp. Regresja logistyczna jest dobrze przygotowana, aby odpowiedzieć na te pytania poprzez włączenie takich warunki w modelu.
Z drugiej strony, dopóki tylko klastrujesz na tych funkcjach i robisz to najpierw (bez patrzenia na odpowiedź), nie widzę żadnych problemów. Podejrzewam, że takie podejście byłoby nieefektywne, ponieważ każdy model miałby mniejszą moc, ponieważ pasuje tylko do podzbioru danych, ale nie sądzę, aby wpłynęło to na parametry lub unieważniło testy. Więc przypuszczam, że możesz spróbować tego, jeśli naprawdę chcesz.
Aktualizacja:
Domyślam się, że najlepiej (tj. Najbardziej wydajnie) byłoby dopasować jeden model do wszystkich danych. Możesz dołączyć dodatkowe zmienne towarzyszące (takie jak zwracanie vs. nie) wykraczające poza swoje główne zainteresowania, a także wskaźnik grupowania, który odkryłeś, przeprowadzając wcześniej analizę skupień. Jeśli jednak zmienne towarzyszące, które przeszły do analizy skupień, zostaną również udostępnione modelowi regresji logistycznej, nie jestem pewien, czy widzę, co można by uzyskać dzięki uwzględnieniu wszystkich zmiennych towarzyszących w modelu LR bezwskaźnik skupienia. Może być z tego korzyść, której nie znam, ponieważ nie jestem ekspertem w analizie skupień, ale nie wiem, co by to było. Wydaje mi się, że urząd certyfikacji nie wygenerowałby dodatkowych informacji, których jeszcze nie było w zmiennych towarzyszących, a zatem nie dodałby niczego do modelu LR. Możesz spróbować; może się mylę. Ale przypuszczam, że spalisz tylko kilka dodatkowych stopni swobody.
Innym podejściem byłoby wprowadzenie wskaźnika klastrów do modelu LR zamiast zmiennych towarzyszących, na których jest oparty. Wątpię, czy byłoby to korzystne. CA nie będzie idealny, podobnie jak jakakolwiek inna analiza, dlatego przejście od pierwotnych zmiennych towarzyszących do pochodnego wskaźnika skupień prawdopodobnie spowoduje pewną utratę informacji . (Znów nie wiem tego, ale mocno podejrzewam, że to prawda.) Ponownie, możesz wypróbować to na dwa sposoby i porównać jako ćwiczenie akademickie, chociaż tylko próbowanie wielu rzeczy i ustalenie wyniku, który wygląda najlepiej, jest marszczone. na, jeśli chcesz poważnie traktować swoje wyniki.
Nie chcę po prostu analizować skupień. Może mieć z nich wiele korzyści i może być dla nich dobre zastosowanie. Jednak, jak rozumiem twoją sytuację, myślę, że po prostu budowanie modelu LR z towarzyszącymi mu zmiennymi, które Twoim zdaniem mogą być istotne, jest właściwą drogą.
źródło
Jeśli nie jesteś związany z regresją logistyczną, sugeruję użycie losowego klasyfikatora lasu, ponieważ ma on rodzaj wbudowanej klastrowania. Pomysł polegałby na użyciu matrycy zbliżeniowej do zgrupowania. Macierz bliskości jest macierzą N_Obs na N_Obs dla frakcji drzew spoza torby, gdzie obserwacje odbywają się w tym samym węźle końcowym. Następnie można agregować to do poziomu elementu według macierzy poziomu elementów, gdzie elementy stanowią średnią ułamka w macierzy zbliżeniowej. Następnie zgrupujesz wszystkie poziomy razem, gdy przekroczą próg i zobaczysz, czy to poprawi twoje przewidywania. Najlepiej jest zastosować podejście iteracyjne krok po kroku, aby znaleźć optymalne grupowanie, ale możesz wybrać próg na inne sposoby. Po zakończeniu klastrowania można zastąpić funkcję etykietami klastrów lub dodać etykiety klastrów jako nową funkcję. Podejrzewam, że w tym momencie możesz naprawdę wrócić do regresji logistycznej.
źródło
Tworząc modele wielosegmentowe, myślę, że najlepszym podejściem jest tworzenie segmentów, które mówią o rzeczywistych różnicach w podstawowych rozkładach. Doskonały przykład stanowią studenci pierwszego semestru a studenci powracający, ponieważ rozkład predyktorów będzie prawdopodobnie bardzo różny dla tych dwóch populacji. Co ważniejsze, różnice te mają intuicyjne wyjaśnienie.
źródło