Standaryzacja funkcji podczas korzystania z LDA jako etapu wstępnego przetwarzania

9

Jeśli do redukcji wymiarowości (lub transformacji po zmniejszeniu wymiarowości za pomocą PCA) stosuje się wieloklasową liniową analizę dyskryminacyjną (lub czasami czytam też analizę wielokrotnej dyskryminacji), rozumiem, że ogólnie „normalizacja Z-score” (lub standaryzacja) funkcje nie będą konieczne, nawet jeśli są mierzone w zupełnie innych skalach, prawda? Skoro LDA zawiera termin podobny do odległości Mahalanobisa, która już implikuje znormalizowane odległości euklidesowe?

Tak więc nie tylko nie byłoby to konieczne, ale wyniki po LDA dotyczące znormalizowanych i niestandardowych funkcji powinny być dokładnie takie same !?

ameba
źródło
1
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scalesNie, to stwierdzenie jest nieprawidłowe. Kwestia standaryzacji za pomocą LDA jest taka sama jak w każdej metodzie wielowymiarowej. Na przykład PCA. Odległość Mahalanobisa nie ma nic wspólnego z tym tematem.
ttnphns
Dzięki, byłoby wspaniale, gdybyś mógł skomentować na przykład ten „problem standaryzacji” w PCA. Jeśli cechy nie są znormalizowane dla PCA, czy niektóre cechy nie przyczyniają się (ważone) bardziej, jeśli są mierzone w innej skali i dają mi zupełnie inne osie składowe? A dla LDA, dlaczego nie będzie to konieczne? Czy wynik (dyskryminatory liniowe) jest inny, jeśli nie, dlaczego?
2
Kiedy ustandaryzujesz (tj. Wyśrodkujesz, a następnie skalujesz), faktycznie analizujesz korelacje. Jeśli nie ustandaryzujesz, tylko wyśrodkuj, faktycznie analizujesz kowariancje. Wyniki będą się różnić, co jest normalne, ponieważ jest tak, jakbyś miał do czynienia z różnymi danymi. Ten fakt nie powinien cię martwić. Możesz przeczytać wątek stats.stackexchange.com/q/62677/3277 .
ttnphns
2
@SebastianRaschka, ameba: Muszę ponownie rozważyć mój komentarz The issue of standardization with LDA is the same as in any multivariate method. W rzeczywistości w przypadku LDA (na przykład w przeciwieństwie do PCA) wyniki nie powinny różnić się od tego, czy tylko wyśrodkowałeś (LDA wewnętrznie zawsze centruje zmienne, aby wyodrębnić czynniki dyskryminujące), czy ustandaryzował dane.
ttnphns
2
(Cd.) Wartości własne, znormalizowane współczynniki, korelacje struktur, wyniki dyskryminacyjne - wszystko będzie takie samo. Różnią się tylko wektory własne. Powodem, dla którego nie ma wpływu standaryzacji na główne wyniki w LDA, jest to, że LDA rozkłada stosunek kowariancji między do wewnątrz, a nie sama kowariancja ma swoją wielkość (jak robi to PCA).
ttnphns

Odpowiedzi:

13

Podziękowania dla tej odpowiedzi należą do @ttnphns, który wyjaśnił wszystko w powyższych komentarzach. Chciałbym jednak udzielić rozszerzonej odpowiedzi.

Na twoje pytanie: czy wyniki LDA dotyczące znormalizowanych i niestandardowych funkcji będą dokładnie takie same? --- odpowiedź brzmi: tak . Najpierw przedstawię nieformalny argument, a następnie przejdę do matematyki.

Wyobraź sobie zestaw danych 2D pokazany jako wykres rozproszenia po jednej stronie balonu (oryginalne zdjęcie z balonu tutaj ): LDA na balonie

Tutaj czerwone kropki to jedna klasa, zielone kropki to inna klasa, a czarna linia to granica klasy LDA. Teraz przeskalowaniex lub yosie odpowiadają rozciąganiu balonu w poziomie lub w pionie. Intuicyjnie jasne jest, że chociaż nachylenie czarnej linii zmieni się po takim rozciągnięciu, klasy będą dokładnie tak samo rozdzielne jak poprzednio, a względne położenie czarnej linii nie ulegnie zmianie. Każda obserwacja testowa zostanie przypisana do tej samej klasy, co przed rozciąganiem. Można więc powiedzieć, że rozciąganie nie wpływa na wyniki LDA.


Teraz, matematycznie, LDA znajduje zestaw osi dyskryminujących, obliczając wektory własne W.-1b, gdzie W. i bsą macierzami rozproszenia wewnątrz i między klasami. Równolegle są to uogólnione wektory własne uogólnionego problemu wartości własnychbv=λW.v.

Rozważ centralną macierz danych X ze zmiennymi w kolumnach i punktami danych w wierszach, dzięki czemu całkowita macierz rozproszenia jest podana przez T.=XX. Standaryzacja danych sprowadza się do skalowania każdej kolumnyX o określoną liczbę, tj. zastępując ją Xnmiw=XΛ, gdzie Λjest macierzą diagonalną ze współczynnikami skalowania (odwrotności standardowych odchyleń każdej kolumny) na przekątnej. Po takim przeskalowaniu macierz rozproszenia zmieni się w następujący sposób:T.nmiw=ΛT.Λ, i ta sama transformacja nastąpi W.nmiw i bnmiw.

Pozwolić v być wektorem pierwotnego problemu, tj

bv=λW.v.
Jeśli pomnożymy to równanie przez Λ po lewej stronie i włóż ΛΛ-1 po obu stronach wcześniej v, otrzymujemy
ΛbΛΛ-1v=λΛW.ΛΛ-1v,
to znaczy
bnmiwΛ-1v=λW.nmiwΛ-1v,
co oznacza że Λ-1v jest wektorem własnym po przeskalowaniu z dokładnie taką samą wartością własną λ jak wcześniej.

Oś dyskryminacyjna (podana przez wektor własny) ulegnie zmianie, ale jej wartość własna, która pokazuje, ile klas są rozdzielone, pozostanie dokładnie taka sama. Co więcej, rzut na tę oś, pierwotnie podany przezXv, zostanie teraz podany przez XΛ(Λ-1v)=Xv, tzn. pozostanie dokładnie taki sam (może nawet do współczynnika skalowania).

ameba
źródło
2
+1. „Moralność” całej historii polega na tym, że różnica między jedynymi centrowanymi danymiX oraz znormalizowane dane XΛjest całkowicie absurdalne w wektorach własnych. Zatem kiedy dane są mnożone przez odpowiednie wektory własne w celu uzyskania wyników dyskryminujących, efektΛnormalizacji anuluje się.
ttnphns