To pytanie dotyczy praktyki lub metody stosowanej przez niektórych moich kolegów. Podczas tworzenia modelu regresji logistycznej widziałem, jak ludzie zastępują zmienne kategoryczne (lub zmienne ciągłe, które są binowane) ich odpowiednią wagą dowodu (WoE). Podobno ma to na celu ustanowienie monotonicznej relacji między regresorem a zmienną zależną. O ile rozumiem, po wykonaniu modelu zmienne w równaniu NIE są zmiennymi w zbiorze danych. Zamiast tego zmienne w równaniu mają teraz znaczenie lub wagę zmiennych w segregacji zmiennej zależnej !
Moje pytanie brzmi: w jaki sposób interpretujemy teraz model lub współczynniki modelu? Na przykład dla następującego równania:
możemy powiedzieć, że jest względnym wzrostem współczynnika nieparzystego dla wzrostu o 1 jednostkę zmiennej x 1 .
Ale jeśli zmienna zostanie zastąpiona przez jej WoE, wówczas interpretacja zostanie zmieniona na: względny wzrost współczynnika nieparzystego dla 1 jednostki wzrostu IMPORTANCJI / WAGI zmiennej
Widziałem tę praktykę w Internecie, ale nigdzie nie znalazłem odpowiedzi na to pytanie. Ten link z tej społeczności jest powiązany z nieco podobnym zapytaniem, w którym ktoś napisał:
WoE pokazuje zależność liniową z logarytmem naturalnym ilorazu szans, który jest zmienną zależną w regresji logistycznej. Dlatego kwestia błędnej specyfikacji modelu nie pojawia się w regresji logistycznej, gdy używamy WoE zamiast rzeczywistych wartości zmiennej.
Ale wciąż nie rozumiem. Pomóż mi zrozumieć, czego mi brakuje.
Odpowiedzi:
Metoda WoE składa się z dwóch etapów:
1 - aby podzielić (ciągłą) zmienną na kilka kategorii lub zgrupować (dyskretną) zmienną na kilka kategorii (w obu przypadkach zakładasz, że wszystkie obserwacje w jednej kategorii mają „taki sam” wpływ na zmienną zależną)
2 - aby obliczyć WoE wartość dla każdej kategorii (wówczas oryginalne wartości x są zastępowane wartościami WoE)
Transformacja WoE ma (co najmniej) trzy pozytywne skutki:
1) Może przekształcić zmienną niezależną, dzięki czemu ustali związek monotoniczny ze zmienną zależną. W rzeczywistości robi więcej niż to - aby zabezpieczyć relację monotoniczną wystarczyłoby „przekodować” ją do dowolnej uporządkowanej miary (na przykład 1,2,3,4 ...), ale transformacja WoE faktycznie porządkuje kategorie według „logistyki” „skala, która jest naturalna dla regresji logistycznej
2) W przypadku zmiennych o zbyt wielu (rzadko zaludnionych) wartościach dyskretnych można je pogrupować w kategorie (gęsto zaludnione), a WoE można wykorzystać do wyrażenia informacji dla całej kategorii
3) Wpływ (jednoczynnikowy) każdej kategorii na zmienną zależną można po prostu porównać między kategoriami i zmiennymi, ponieważ WoE jest wartością znormalizowaną (na przykład można porównać WoE osób zamężnych z WoE pracowników fizycznych)
Ma także (co najmniej) trzy wady:
1) Utrata informacji (zmienność) z powodu grupowania do kilku kategorii
2) Jest to miara „jednowymiarowa”, więc nie uwzględnia korelacji między zmiennymi niezależnymi
3) Łatwo jest manipulować (zastępować) efekt zmiennych zgodnie ze sposobem tworzenia kategorii
Konwencjonalnie, beta regresji (gdzie x zastąpiono WoE) nie są interpretowane per se, ale są mnożone przez WoE w celu uzyskania „wyniku” (na przykład beta dla zmiennej „stanu cywilnego” można pomnożyć przez WoE grupę „żonaci”, aby zobaczyć liczbę żonatych; beta dla zmiennego „zawodu” można pomnożyć przez WoE „pracowników fizycznych”, aby zobaczyć wynik pracowników fizycznych. to jeśli jesteś zainteresowany wynikami pracowników fizycznych w związku małżeńskim, zsumujesz te dwa wyniki i zobaczysz, jaki wpływ ma to na wynik). Im wyższy wynik, tym większe prawdopodobieństwo wyniku równego 1.
źródło
Racjonalne zastosowanie WOE w regresji logistycznej polega na wygenerowaniu tak zwanego Semi-Naive Bayesian Classifier (SNBC). Początek tego postu na blogu wyjaśnia całkiem dobrze: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
Parametry beta w modelu to liniowe odchylenie każdego naiwnego efektu (inaczej ciężar dowodu) ze względu na obecność innych predyktorów i można je interpretować jako liniową zmianę szans logarytmicznych poszczególnych predyktorów z powodu obecności inne predyktory.
źródło
Waga dowodu (WoE) jest potężną techniką do przeprowadzania transformacji i selekcji zmiennych. Jest szeroko stosowany w punktacji kredytowej do mierzenia podziału dobrych i złych klientów (zmienne). Zalety :: - Obsługuje brakujące wartości Obsługuje wartości odstające od transformacji w oparciu o wartość logarytmiczną rozkładu. Nie ma potrzeby stosowania zmiennych zastępczych, stosując odpowiednią technikę binowania, można ustalić związek monotoniczny między niezależnymi i zależnymi.
mono_bin () = używane dla zmiennych numerycznych. char_bin () = używany dla zmiennych znakowych.
źródło