Kiedy użyteczne jest przekształcanie zmiennych kategorialnych według wagi dowodu (WOE)?
Przykład można zobaczyć w transformacji WOE
(Tak na odpowiedź , i kategorycznym predyktora z kategoriach & sukcesów poza n_j prób w j th kategorii tej predykcyjnych, Biada j th Kategoria ta jest zdefiniowana jakok y j n j j j
a transformacja polega na kodowaniu każdej kategorii predyktora jakościowego za pomocą WOE w celu utworzenia nowego predyktora ciągłego).
Chciałbym dowiedzieć się, dlaczego transformacja WOE pomaga regresji logistycznej. Jaka jest teoria?
Klasyfikacja zgrubna przy użyciu miary ciężaru dowodu (WoE) ma następującą zaletę - WoE wykazuje liniowy związek z logarytmem naturalnym ilorazu szans, który jest zmienną zależną w regresji logistycznej.
Dlatego kwestia błędnej specyfikacji modelu nie pojawia się w regresji logistycznej, gdy używamy WoE zamiast rzeczywistych wartości zmiennej.
Źródło: W jednym z PPT mój trener pokazał mi podczas szkolenia w firmie.
źródło
Transformacje WOE pomagają, gdy masz zarówno dane liczbowe, jak i jakościowe, które musisz połączyć, i brakuje wartości, z których chcesz wyodrębnić informacje. Konwersja wszystkiego na WOE pomaga „ujednolicić” wiele różnych typów danych (nawet brakujących danych) w tej samej skali szansy na log. Ten post na blogu wyjaśnia rzeczy całkiem dobrze: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
Krótko mówiąc, regresja logistyczna z WOE powinna być (i jest) nazywana Semi-Naive Bayesian Classifier (SNBC). Jeśli próbujesz zrozumieć algorytm, nazwa SNBC jest dla mnie znacznie bardziej pouczająca.
źródło