Znalazłem zalety analizy dyskryminacyjnej i mam pytania na ich temat. Więc:
Gdy klasy są dobrze rozdzielone, oszacowania parametrów regresji logistycznej są zaskakująco niestabilne. Współczynniki mogą sięgać nieskończoności. LDA nie cierpi z powodu tego problemu.
Jeśli liczba cech jest niewielka, a rozkład predyktorów jest w przybliżeniu normalny w każdej z klas, liniowy model dyskryminacyjny jest ponownie bardziej stabilny niż model regresji logistycznej.
- Czym jest stabilność i dlaczego jest ważna? (Jeśli regresja logistyczna zapewnia dobre dopasowanie, które spełnia swoje zadanie, to dlaczego miałbym dbać o stabilność?)
LDA jest popularna, gdy mamy więcej niż dwie klasy odpowiedzi, ponieważ zapewnia również nisko wymiarowe widoki danych.
- Po prostu tego nie rozumiem. W jaki sposób LDA zapewnia widoki mało wymiarowe?
- Jeśli możesz wymienić więcej zalet lub wad, byłoby miło.
Odpowiedzi:
Jeśli istnieją zmienne towarzyszące, które mogą doskonale przewidzieć wynik binarny, to algorytm regresji logistycznej, tj. Ocena Fishera, nawet się nie zbiegnie. Jeśli używasz R lub SAS, otrzymasz ostrzeżenie, że prawdopodobieństwa zerowe i jedno zostały obliczone i algorytm się zawiesił. Jest to skrajny przypadek idealnej separacji, ale nawet jeśli dane są rozdzielone tylko w dużym stopniu, a nie idealnie, estymator maksymalnego prawdopodobieństwa może nie istnieć, a nawet jeśli tak jest, szacunki nie są wiarygodne. Wynikowe dopasowanie wcale nie jest dobre. Istnieje wiele wątków dotyczących problemu separacji na tej stronie, więc na pewno spójrz.
W przeciwieństwie do tego, często nie ma problemów z oszacowaniem dyskryminacji Fishera. Może się to nadal zdarzyć, jeśli macierz kowariancji pomiędzy lub wewnątrz jest pojedyncza, ale jest to raczej rzadki przypadek. W rzeczywistości, jeśli nastąpi całkowite lub quasi-całkowite rozdzielenie, tym lepiej, ponieważ dyskryminujący jest bardziej skuteczny.
Warto również wspomnieć, że wbrew powszechnemu przekonaniu, LDA nie opiera się na żadnych założeniach dotyczących dystrybucji. Wymagamy tylko domyślnie równości macierzy kowariancji populacyjnych, ponieważ do macierzy kowariancji zastosowano zbiorczy estymator. Przy dodatkowych założeniach normalności, równych wcześniejszych prawdopodobieństwach i kosztach błędnej klasyfikacji, LDA jest optymalna w tym sensie, że minimalizuje prawdopodobieństwo błędnej klasyfikacji.
Łatwiej to zauważyć w przypadku dwóch populacji i dwóch zmiennych. Oto obrazowe przedstawienie działania LDA w tym przypadku. Pamiętaj, że szukamy liniowych kombinacji zmiennych, które maksymalizują separowalność.
Dlatego dane są rzutowane na wektor, którego kierunek lepiej osiąga to rozdzielenie. Jak stwierdzamy, że wektor jest interesującym problemem algebry liniowej, w zasadzie maksymalizujemy iloraz Rayleigha, ale odłóżmy to na bok. Jeśli dane są rzutowane na ten wektor, wymiar zostaje zmniejszony z dwóch do jednego.
Niski wymiar reprezentacji nie jest jednak pozbawiony wad, z których najważniejszą jest oczywiście utrata informacji. Jest to mniejszy problem, gdy dane można rozdzielić liniowo, ale jeśli nie są, utrata informacji może być znaczna, a klasyfikator będzie działał słabo.
Mogą również zdarzyć się przypadki, w których równość macierzy kowariancji może nie być możliwym do przyjęcia założeniem. Możesz zastosować test, aby się upewnić, ale testy te są bardzo wrażliwe na odstępstwa od normalności, więc musisz przyjąć to dodatkowe założenie, a także przetestować je. Jeśli okaże się, że populacje są normalne z nierównymi macierzami kowariancji, można zamiast tego zastosować kwadratową regułę klasyfikacji (QDA), ale uważam, że jest to raczej niezręczna reguła, nie wspominając o sprzeczności z intuicją w dużych wymiarach.
Ogólnie rzecz biorąc, główną zaletą LDA jest istnienie wyraźnego rozwiązania i jego wygoda obliczeniowa, czego nie ma w przypadku bardziej zaawansowanych technik klasyfikacji, takich jak SVM lub sieci neuronowe. Cena, którą płacimy, to zestaw założeń, które się z nią wiążą, mianowicie liniowa separowalność i równość macierzy kowariancji.
Mam nadzieję że to pomoże.
EDYCJA : Podejrzewam, że moje twierdzenie, że LDA w określonych przypadkach, o których wspomniałem, nie wymaga żadnych założeń dystrybucyjnych innych niż równość macierzy kowariancji kosztowało mnie głosowanie negatywne. Jest to jednak nie mniej prawdą, więc pozwólcie, że sprecyzuję.
Jeśli pozwolimy oznacza średnie z pierwszej i drugiej populacji, a oznacza połączoną macierz kowariancji, Dyskryminacja Fishera rozwiązuje problemx¯ja, i = 1 , 2 S.połączone
Można wykazać rozwiązanie tego problemu (aż do stałej)
Jest to równoważne z LDA, którą wyprowadzasz przy założeniu normalności, równych macierzy kowariancji, kosztów błędnej klasyfikacji i wcześniejszych prawdopodobieństw, prawda? No tak, z wyjątkiem tego, że nie przyjęliśmy normalności.
Nic nie stoi na przeszkodzie, aby użyć powyższego dyskryminatora we wszystkich ustawieniach, nawet jeśli macierze kowariancji nie są tak naprawdę równe. Może nie być optymalny w sensie oczekiwanego kosztu błędnej klasyfikacji (ECM), ale jest to nadzorowane uczenie się, więc zawsze możesz ocenić jego wydajność, na przykład stosując procedurę wstrzymania.
Bibliografia
źródło
LDA przyjmuje surowe założenia dystrybucyjne (wielowymiarowa normalność wszystkich predyktorów) w przeciwieństwie do regresji logistycznej. Spróbuj uzyskać prawdopodobieństwo prawdopodobieństwa członkostwa w klasie na podstawie płci badanych, a zobaczysz, co mam na myśli - prawdopodobieństwa nie będą dokładne.
Zobacz to, aby uzyskać więcej informacji.
Zauważ, że jeśli utrzymuje się wielowymiarowa normalność, to według twierdzenia Bayesa zachodzą założenia regresji logistycznej. Odwrotna sytuacja nie jest prawdą.
Normalność (a przynajmniej symetria) musi prawie obowiązywać dla wariancji i kowariancji, aby „wykonać zadanie”. Nie-wielowymiarowe normalnie dystrybuowane predyktory zaszkodzą nawet fazie ekstrakcji dyskryminacyjnej.
źródło
Oświadczenie: To, co następuje poniżej, całkowicie pozbawione jest matematycznego rygoru.
Aby dobrze dopasować funkcję (nieliniową), potrzebujesz obserwacji we wszystkich obszarach funkcji, w których „zmienia się jej kształt”. Regresja logistyczna dopasowuje funkcję sigmoidalną do danych:
W przypadku dobrze oddzielonych klas wszystkie obserwacje spadną na dwa „końce”, gdzie sigmoid zbliża się do swoich asymptot (0 i 1). Ponieważ wszystkie sigmoidy „wyglądają tak samo” w tych regionach, że tak powiem, nic dziwnego, że słabo dopasowany algorytm będzie miał trudności ze znalezieniem „właściwego”.
Rzućmy okiem na dwa (miejmy nadzieję pouczające) przykłady obliczone za pomocą
glm()
funkcji R.Przypadek 1: Dwie grupy pokrywają się w pewnym stopniu:
a obserwacje ładnie rozkładają się wokół punktu przegięcia dopasowanej sigmoidy:
Są to parametry dopasowane do błędów o niskim standardzie:
a dewiacja również wygląda OK:
Przypadek 2: Dwie grupy są dobrze rozdzielone:
a wszystkie obserwacje dotyczą praktycznie asymptot.
glm()
Funkcja dokłada wszelkich starań, aby dopasować coś, ale skarżył się numerycznie 0 lub 1 prawdopodobieństwa, ponieważ są po prostu niedostępne „dostać kształt esicy prawo” wokół jego punktu przegięcia obserwacje:Możesz zdiagnozować problem, zauważając, że standardowe błędy szacowanych parametrów przechodzą przez dach:
a jednocześnie dewiacja wygląda podejrzanie dobrze (ponieważ obserwacje dobrze pasują do asymptot):
Przynajmniej intuicyjnie powinno być jasne z tych rozważań, dlaczego „oszacowania parametrów regresji logistycznej są zaskakująco niestabilne”.
źródło