Jeśli do redukcji wymiarowości (lub transformacji po zmniejszeniu wymiarowości za pomocą PCA) stosuje się wieloklasową liniową analizę dyskryminacyjną (lub czasami czytam też analizę wielokrotnej dyskryminacji), rozumiem, że ogólnie „normalizacja Z-score” (lub standaryzacja) funkcje nie będą konieczne, nawet jeśli są mierzone w zupełnie innych skalach, prawda? Skoro LDA zawiera termin podobny do odległości Mahalanobisa, która już implikuje znormalizowane odległości euklidesowe?
Tak więc nie tylko nie byłoby to konieczne, ale wyniki po LDA dotyczące znormalizowanych i niestandardowych funkcji powinny być dokładnie takie same !?
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales
Nie, to stwierdzenie jest nieprawidłowe. Kwestia standaryzacji za pomocą LDA jest taka sama jak w każdej metodzie wielowymiarowej. Na przykład PCA. Odległość Mahalanobisa nie ma nic wspólnego z tym tematem.The issue of standardization with LDA is the same as in any multivariate method
. W rzeczywistości w przypadku LDA (na przykład w przeciwieństwie do PCA) wyniki nie powinny różnić się od tego, czy tylko wyśrodkowałeś (LDA wewnętrznie zawsze centruje zmienne, aby wyodrębnić czynniki dyskryminujące), czy ustandaryzował dane.Odpowiedzi:
Podziękowania dla tej odpowiedzi należą do @ttnphns, który wyjaśnił wszystko w powyższych komentarzach. Chciałbym jednak udzielić rozszerzonej odpowiedzi.
Na twoje pytanie: czy wyniki LDA dotyczące znormalizowanych i niestandardowych funkcji będą dokładnie takie same? --- odpowiedź brzmi: tak . Najpierw przedstawię nieformalny argument, a następnie przejdę do matematyki.
Wyobraź sobie zestaw danych 2D pokazany jako wykres rozproszenia po jednej stronie balonu (oryginalne zdjęcie z balonu tutaj ):
Tutaj czerwone kropki to jedna klasa, zielone kropki to inna klasa, a czarna linia to granica klasy LDA. Teraz przeskalowaniex lub y osie odpowiadają rozciąganiu balonu w poziomie lub w pionie. Intuicyjnie jasne jest, że chociaż nachylenie czarnej linii zmieni się po takim rozciągnięciu, klasy będą dokładnie tak samo rozdzielne jak poprzednio, a względne położenie czarnej linii nie ulegnie zmianie. Każda obserwacja testowa zostanie przypisana do tej samej klasy, co przed rozciąganiem. Można więc powiedzieć, że rozciąganie nie wpływa na wyniki LDA.
Teraz, matematycznie, LDA znajduje zestaw osi dyskryminujących, obliczając wektory własneW.- 1b , gdzie W. i b są macierzami rozproszenia wewnątrz i między klasami. Równolegle są to uogólnione wektory własne uogólnionego problemu wartości własnychB v =λ W v .
Rozważ centralną macierz danychX ze zmiennymi w kolumnach i punktami danych w wierszach, dzięki czemu całkowita macierz rozproszenia jest podana przez T =X⊤X . Standaryzacja danych sprowadza się do skalowania każdej kolumnyX o określoną liczbę, tj. zastępując ją Xn e w= X Λ , gdzie Λ jest macierzą diagonalną ze współczynnikami skalowania (odwrotności standardowych odchyleń każdej kolumny) na przekątnej. Po takim przeskalowaniu macierz rozproszenia zmieni się w następujący sposób:T.n e w= Λ T Λ , i ta sama transformacja nastąpi W.n e w i bn e w .
Pozwolićv być wektorem pierwotnego problemu, tj
Oś dyskryminacyjna (podana przez wektor własny) ulegnie zmianie, ale jej wartość własna, która pokazuje, ile klas są rozdzielone, pozostanie dokładnie taka sama. Co więcej, rzut na tę oś, pierwotnie podany przezX przeciwko , zostanie teraz podany przez X Λ(Λ- 1v )= X v , tzn. pozostanie dokładnie taki sam (może nawet do współczynnika skalowania).
źródło