Czy możemy zastosować kategoryczną zmienną niezależną w analizie dyskryminacyjnej?

Odpowiedzi:

14

Analiza dyskryminacyjna zakłada wielowymiarowy rozkład normalny, ponieważ to, co zwykle uważamy za predyktory, jest tak naprawdę zmienną zależną od wielu zmiennych, a zmienna grupująca jest uważana za predyktor. Oznacza to, że zmienne jakościowe, które mają być traktowane jako predyktory w takim sensie, jak chcesz, nie są odpowiednio obsługiwane. Jest to jeden z powodów, dla których wielu, w tym ja, uważa analizę dyskryminacyjną za przestarzałą z powodu regresji logistycznej. Regresja logistyczna nie przyjmuje żadnych założeń dystrybucyjnych ani po lewej, ani po prawej stronie modelu. Regresja logistyczna jest bezpośrednim modelem prawdopodobieństwa i nie wymaga stosowania reguły Bayesa do konwersji wyników na prawdopodobieństwa, podobnie jak analiza dyskryminacyjna.

Frank Harrell
źródło
Dziękuję panu Frankowi Harrella za odpowiedź. Właściwie chcę porównać wyniki analizy dyskryminacyjnej i regresji logistycznej (model logit) przy użyciu tego samego zestawu zmiennych. Więc w tym celu, jeśli muszę użyć zmiennych kategorialnych w analizie dyskryminacyjnej jako zmiennej niezależnej, to czy jest jakiś sposób?
kuwoli
6

Krótka odpowiedź brzmi raczej nie niż tak.

Jedna uwaga wstępna. Trudno powiedzieć, czy zmienne, które same wytwarzają funkcje dyskryminujące, należy nazwać „niezależnymi” czy „zależnymi”. LDA jest w zasadzie szczególnym przypadkiem kanonicznej analizy korelacji, a zatem jest dwukierunkowa. Można to postrzegać jako MANOVA (ze zmienną klasową jako niezależnym czynnikiem) lub, gdy klasa jest dychotomiczna, jako regresję liniową klasy jako zmiennej zależnej. Nie zawsze jest zatem całkowicie legalne sprzeciwianie się LDA za pomocą regresji jednokierunkowych, takich jak regresja logistyczna.

LDA zakłada, że ​​zmienne (te, które nazywacie „niezależnymi”) pochodzą z wielowymiarowego rozkładu normalnego, a zatem - wszystkie są ciągłe. To założenie jest ważne dla (1) etapu klasyfikacji LDA i (2) testowania znaczenia dyskryminatorów wytwarzanych na etapie ekstrakcji. Wyodrębnianie samych dyskryminujących nie wymaga założenia.

Jednak LDA jest dość odporny na naruszenie założenia, które czasami postrzegane jest jako gwarancja do zrobienia tego na danych binarnych . W rzeczywistości niektórzy to robią. Korelacje kanoniczne (których szczególnym przypadkiem jest LDA) można wykonać, gdy oba zestawy składają się ze zmiennych binarnych lub nawet fikcyjnych zmiennych binarnych. Po raz kolejny nie ma problemu z wydobyciem ukrytych funkcji; problemy z taką aplikacją mogą powstać, gdy wywoływane są wartości p lub obiekty klasyfikujące.

Na podstawie zmiennych binarnych / porządkowych można obliczyć korelacje tetrachoryczne / polichoryczne i przesłać je do LDA (jeśli program pozwala na wprowadzenie macierzy korelacji zamiast danych); ale wówczas obliczenie wyników dyskryminujących na poziomie przypadku będzie problematyczne.

Bardziej elastycznym podejściem byłoby przekształcenie zmiennych kategorialnych (porządkowych, nominalnych) w ciągłe poprzez optymalne skalowanie / kwantyfikację . Nieliniowa analiza korelacji kanonicznej (OVERALS). Zrobi to w ramach zadania maksymalizacji korelacji kanonicznych między dwiema stronami (zmienną klasową i kategorycznymi „predyktorami”). Następnie możesz wypróbować LDA z transformowanymi zmiennymi.

(Wielomianowa lub binarna) regresja logistyczna może być inną alternatywą dla LDA.

ttnphns
źródło
Jest to o wiele bardziej zaangażowane niż tylko użycie modelu, który był przeznaczony do danej sytuacji (regresja logistyczna). Analiza dyskryminacyjna nie jest tak solidna, jak niektórzy sądzą. Za pomocą pojedynczego predyktora kategorycznego, który jest binarny, łatwo jest wykazać, że prawdopodobieństwa a posteriori z da nie są bardzo dokładne (np. Przewidzieć prawdopodobieństwo zdarzenia dla danej płci).
Frank Harrell,