Próbuję ustalić, czy proste prawdopodobieństwa będą działać na mój problem, czy też lepiej będzie użyć (i dowiedzieć się więcej) bardziej wyrafinowanych metod, takich jak regresja logistyczna.
Zmienna odpowiedzi w tym problemie jest odpowiedzią binarną (0, 1). Mam wiele zmiennych predykcyjnych, które są kategoryczne i nieuporządkowane. Próbuję ustalić, które kombinacje zmiennych predykcyjnych dają najwyższy odsetek 1. Czy potrzebuję regresji logistycznej? Jaka byłaby korzyść z obliczania proporcji w moim zestawie próbek dla każdej kombinacji predyktorów jakościowych?
r
probability
logistic
Rachel
źródło
źródło
Odpowiedzi:
Regresja logistyczna, aż do nieprecyzyjności liczbowej, da dokładnie takie same pasowania jak odsetki w tabelach. Dlatego jeśli twoje niezależne zmienne są obiektami czynników
factor1
itp., A zależnymi wynikami (0 i 1) sąx
, możesz uzyskać efekty za pomocą wyrażenia takiego jakPorównaj to z
Na przykład wygenerujmy losowe dane:
Podsumowanie uzyskuje się za pomocą
Jego wyniki obejmują
Dla przyszłego odniesienia szacunek dla czynników na poziomach (1,2,0) w wierszu 6 wyniku wynosi 0,5.
Regresja logistyczna rezygnuje ze swoich współczynników w ten sposób:
Aby z nich skorzystać, potrzebujemy funkcji logistycznej:
Aby uzyskać np. Oszacowanie czynników na poziomach (1,2,0), oblicz
(Zwróć uwagę, jak wszystkie interakcje muszą zostać uwzględnione w modelu i wszystkie powiązane współczynniki muszą być zastosowane, aby uzyskać prawidłowe oszacowanie.)
zgadzając się z wynikami
aggregate
. (Nagłówek „(przechwytuj)” w danych wyjściowych jest pozostałością danych wejściowych i w rzeczywistości nie ma znaczenia dla tego obliczenia.)Ta sama informacja w jeszcze innej formie pojawia się na wyjściu
table
. Np. (Długi) wynik działaniazawiera ten panel:
factor1
x
aggregate
glm
Wreszcie, kombinacja czynników dających najwyższy odsetek w zbiorze danych jest dogodnie otrzymywana z danych wyjściowych
aggregate
:źródło
W celu szybkiego spojrzenia na odsetek odpowiedzi binarnych w każdej kategorii i / lub uwarunkowanych wieloma kategoriami, wykresy graficzne mogą być przydatne. W szczególności, aby jednocześnie wizualizować proporcje uwarunkowane wieloma kategorycznymi zmiennymi niezależnymi, sugerowałbym wykresy mozaikowe .
Poniżej znajduje się przykład zaczerpnięty z postu na blogu, Zrozumienie wykresów obszarowych: Wykresy mozaiki z grafiki statystycznej i więcej blogów. Ten przykład ilustruje niebieski odsetek osób, które przeżyły na Titanicu, w zależności od klasy pasażera. Można jednocześnie ocenić odsetek osób, które przeżyły, a jednocześnie docenić całkowitą liczbę pasażerów w każdej z podgrup (z pewnością przydatne informacje, szczególnie gdy niektóre podgrupy są rzadkie i spodziewalibyśmy się większej zmienności losowej).
(źródło: theusrus.de )
Następnie można uzależnić kolejne wykresy mozaiki od wielu niezależnych zmiennych jakościowych. Następny przykład z tego samego posta na blogu w krótkim wizualnym podsumowaniu pokazuje, że wszyscy pasażerowie dzieci w pierwszej i drugiej klasie przeżyli, podczas gdy w trzeciej klasie dzieci nie radziły sobie tak dobrze. Wyraźnie pokazuje również, że kobiety dorosłe miały znacznie wyższy wskaźnik przeżycia w porównaniu z mężczyznami w każdej klasie, chociaż odsetek kobiet, które przeżyły między klasami, znacznie się zmniejszył z pierwszej do drugiej do trzeciej klasy (a następnie był ponownie stosunkowo wysoki dla załogi, chociaż jeszcze raz zauważ, że nie ma zbyt wielu kobiet-członków załogi, biorąc pod uwagę, jak wąski jest pasek).
(źródło: theusrus.de )
To niesamowite, jak wiele informacji jest wyświetlanych, są to proporcje w czterech wymiarach (klasa, dorosły / dziecko, płeć i odsetek ocalałych)!
Zgadzam się, że jeśli jesteś zainteresowany prognozowaniem lub bardziej ogólnym wyjaśnieniem przyczynowym, będziesz chciał przejść do bardziej formalnego modelowania. Wykresy graficzne mogą być bardzo szybkimi wskazówkami wizualnymi co do natury danych i mogą dostarczyć innych informacji, często pomijanych podczas zwykłego szacowania modeli regresji (szczególnie przy rozważaniu interakcji między różnymi zmiennymi kategorialnymi).
źródło
Nb
? Zawsze mówię też lepiej z liczbami!W zależności od potrzeb może się okazać, że partycjonowanie rekurencyjne stanowi łatwą do interpretacji metodę przewidywania zmiennej wynikowej. Aby zapoznać się z wprowadzeniem R do tych metod, zobacz stronę Model oparty na drzewie Quick-R . Generalnie wolę
ctree()
implementację w pakiecie party R, ponieważ nie trzeba się martwić o przycinanie i domyślnie produkuje ładną grafikę.To mieściłoby się w kategorii algorytmów wyboru funkcji sugerowanych w poprzedniej odpowiedzi i ogólnie daje tak dobre, jeśli nie lepsze prognozy, jak regresja logistyczna.
źródło
Jeśli masz mniej danych, chcesz nauczyć się mniej parametrów. Można zmniejszyć liczbę parametrów, zakładając na przykład, że konfiguracje poszczególnych predyktorów mają spójny wpływ na zmienną odpowiedzi.
Jeśli uważasz, że twoje predyktory są od siebie niezależne, to regresja logistyczna jest unikalnym algorytmem, który działa właściwie. (Nawet jeśli nie są niezależne, nadal może działać całkiem dobrze.)
Podsumowując, regresja logistyczna przyjmuje założenie o niezależnym wpływie predyktorów, co zmniejsza liczbę parametrów modelu i daje model, który jest łatwy do nauczenia.
źródło
Powinieneś spojrzeć na algorytmy wyboru funkcji. Odpowiednim dla twojego przypadku (klasyfikacja binarna, zmienne kategorialne) jest metoda „minimalnej redundancji maksymalnej trafności” (mRMR). Możesz go szybko wypróbować online pod adresem http://penglab.janelia.org/proj/mRMR/
źródło
response,predictor1,predictor2,predictor3 <line break here> 1,5,4,3 <line break here> 0,5,3,-1 <line break here> 1,1,2,3
Pracuję w dziedzinie punktacji kredytowej, gdzie normą jest to, co przedstawia się tutaj jako dziwny przypadek.
Używamy regresji logistycznej i przekształcamy zmienne jakościowe i ciągłe w wagi dowodów (WOE), które są następnie wykorzystywane jako predyktory w regresji. Dużo czasu poświęca się na grupowanie zmiennych kategorialnych i dyskretyzację (binowanie / klasyfikowanie) zmiennych ciągłych.
Ciężar dowodu jest prostym obliczeniem. Jest to dziennik szans dla klasy, pomniejszony dziennik szans dla populacji:
WOE = ln (Dobra (Klasa) / Zła (Klasa)) - ln (Dobra (WSZYSTKO) / Zła (WSZYSTKO)) To jest standardowa metodologia transformacji dla prawie wszystkich modeli scoringowych zbudowanych przy użyciu regresji logistycznej. Możesz użyć tych samych liczb w częściowym podejściu.
Piękno tego polega na tym, że zawsze będziesz wiedział, czy współczynniki przypisane do każdej WOE mają sens. Współczynniki ujemne są sprzeczne z wzorcami w danych i zwykle wynikają z wielokoliniowości; a współczynniki powyżej 1,0 wskazują na nadmierną kompensację. Większość współczynników wyjdzie gdzieś pomiędzy zero a jeden.
źródło