Czytałem następujące uzasadnienie (z notatek kursowych cs229), dlaczego dzielimy surowe dane przez standardowe odchylenie:
chociaż rozumiem, co mówi to wyjaśnienie, nie jest dla mnie jasne, dlaczego podzielenie przez odchylenie standardowe osiągnęłoby taki cel. Mówi się, że wszyscy są bardziej na tej samej „skali”. Jednak nie do końca jasne jest, dlaczego dzielenie przez odchylenie standardowe osiąga to. Cóż jest nie tak z dzieleniem przez wariancję? Dlaczego nie inna ilość? Jak ... suma wartości bezwzględnych? lub jakaś inna norma ... Czy istnieje matematyczne uzasadnienie wyboru choroby przenoszonej drogą płciową?
Czy twierdzenia w tym wyciągu są teoretycznym stwierdzeniem, które można wyprowadzić / udowodnić za pomocą matematyki (i / lub statystyki), czy też jest bardziej jednym z tych stwierdzeń, które robimy, ponieważ wydaje się, że działa w praktyce?
Zasadniczo, czy można podać dokładne matematyczne wyjaśnienie, dlaczego ta intuicja jest prawdziwa? A jeśli jest to tylko obserwacja empiryczna, dlaczego uważamy, że działa to ogólnie przed wykonaniem PCA?
Czy w kontekście PCA jest to proces standaryzacji lub normalizacji?
Niektóre inne przemyślenia, które mogłem „wyjaśnić”, dlaczego STD:
Ponieważ PCA można wyprowadzić z maksymalizacji wariancji, domyśliłem się, że dzielenie przez pokrewną wielkość, taką jak STD, może być jednym z powodów, dla których podzieliliśmy się przez STD. Ale potem pomyślałem, że może gdybyśmy zdefiniowali może „wariancję” z jakąkolwiek inną normą, , wówczas dzielilibyśmy przez STD tej normy (biorąc pth root lub coś w tym rodzaju). Chociaż było to tylko przypuszczenie i nie jestem w 100% o tym, stąd pytanie. Zastanawiałem się, czy ktoś wiedział coś z tym związanego.
Widziałem, że może być związane z tym pytanie:
PCA o korelacji lub kowariancji?
ale wydawało się, że mówi się więcej o tym, kiedy użyć „korelacji” lub „kowariancji”, ale brakowało jej rygorystycznych lub przekonujących lub szczegółowych uzasadnień, a to mnie najbardziej interesuje.
To samo dla:
Dlaczego musimy znormalizować dane przed analizą
związane z:
Odpowiedzi:
Jest to częściowa odpowiedź na „nie jest dla mnie jasne, dlaczego podzielenie przez odchylenie standardowe osiągnęłoby taki cel”. W szczególności dlaczego umieszcza przekształcone (znormalizowane) dane w „tej samej skali”. Pytanie wskazuje na głębsze kwestie (co jeszcze mogłoby „zadziałać”, co jest powiązane z tym, co „działało” może nawet oznaczać matematycznie?), Ale rozsądne było przynajmniej odniesienie się do bardziej prostych aspektów, dlaczego ta procedura „działa” - to znaczy spełnia twierdzenia przedstawione w tekście.
Rezultatem jest to, że metoda, która działa na macierzy kowariancji znormalizowanych danych, zasadniczo wykorzystuje macierz korelacji oryginalnych danych. Dla których wolisz używać PCA, zobacz PCA na temat korelacji lub kowariancji?
źródło
Zatem: standaryzacja (średnie centrowanie + skalowanie według odchylenia standardowego) ma sens, jeśli uważasz, że standardowy rozkład normalny jest odpowiedni dla twoich danych.
Inne wielkości są używane do skalowania danych, ale procedura nazywa się standaryzacją tylko wtedy, gdy wykorzystuje średnie centrowanie i dzielenie przez odchylenie standardowe. Skalowanie jest terminem ogólnym.
Np. Pracuję z danymi spektroskopowymi i wiem, że mój detektor ma czułość zależną od długości fali i odchylenie (elektroniczne). W ten sposób kalibruję odejmując sygnał przesunięcia (ślepej) i mnożąc (dzieląc) przez współczynnik kalibracji.
Mogę też koncentrować się nie na średniej, ale na innej wartości wyjściowej, takiej jak średnia grupy kontrolnej zamiast średniej średniej. (Osobiście prawie nigdy nie standaryzuję, ponieważ moje odmiany mają już tę samą jednostkę fizyczną i mają ten sam rząd wielkości)
Zobacz też: Zmienne są często dostosowywane (np. Standaryzowane) przed wykonaniem modelu - kiedy jest to dobry pomysł, a kiedy zły?
źródło
Ten link wyraźnie odpowiada na twoje pytanie: http://sebastianraschka.com/Articles/2014_about_feature_scaling.html
Cytuję mały kawałek:
źródło