Normalizacja a skalowanie

45

Jaka jest różnica między „normalizacją” danych a „skalowaniem” danych? Do tej pory myślałem, że oba terminy odnoszą się do tego samego procesu, ale teraz zdaję sobie sprawę, że jest coś więcej, czego nie wiem / nie rozumiem. Także jeśli istnieje różnica między normalizacją a skalowaniem, kiedy powinniśmy używać normalizacji, ale nie skalowania i odwrotnie?

Proszę podać przykład.

d.putto
źródło
6
Normalizacja zwykle oznacza przekształcenie twoich obserwacji w (gdzie jest mierzalną, zazwyczaj ciągłą funkcją) tak, że wyglądają one normalnie rozłożone . Niektóre przykłady transformacji normalizujących dane to transformacje mocy . Skalowanie oznacza po prostu , , to znaczy pomnożenie obserwacji przez stałą która zmienia skalę (na przykład z nanometrów na kilometry) . f ( x ) fxf(x)f c R cf(x)=cxcRc
1
Powiązane / również interesujące: jaka jest różnica między normalizacją a normalizacją .
gung - Przywróć Monikę
normalizacja jest również metodą skalowania, podobnie jak standaryzacja
Nie mam wystarczającej reputacji statystyk, aby odpowiedzieć. Myślę, że tytuł twojego pytania powinien brzmieć Normalizacja vs. Standaryzacja, ponieważ są to różne podejścia do przeskalowywania. Normalizacja przeskalowuje wartości do zakresu 0 i 1, podczas gdy normalizacja przesuwa rozkład, tak aby miał 0 jako średnią, a 1 jako odchylenie standardowe.
Hamid Heydarian

Odpowiedzi:

23

Nie znam „oficjalnej” definicji i nawet jeśli istnieje, nie powinieneś jej ufać, ponieważ zobaczysz, że jest ona niekonsekwentnie stosowana w praktyce.

To powiedziawszy, skalowanie w statystyce zwykle oznacza liniową transformację postaci .f(x)=ax+b

Normalizacja może oznaczać zastosowanie transformacji, tak aby przekształcone dane były z grubsza normalnie rozłożone, ale może również oznaczać po prostu umieszczenie różnych zmiennych na wspólnej skali. Standaryzacja, która oznacza odjęcie średniej i podzielenie przez odchylenie standardowe, jest przykładem późniejszego użycia. Jak widać, jest to również przykład skalowania. Przykładem może być zapisanie logarytmicznie rozproszonych danych.

Ale powinieneś zabrać to, że kiedy ją czytasz, powinieneś poszukać dokładniejszego opisu tego, co zrobił autor. Czasami można to uzyskać z kontekstu.

Erik
źródło
14

Skalowanie to osobisty wybór, aby liczby były poprawne, np. Od zera do jednego lub od jednego do stu. Na przykład konwertuje dane podane w milimetrach na metry, ponieważ jest to wygodniejsze lub imperialne na metryczne.

Podczas gdy normalizacja polega na skalowaniu do zewnętrznego „standardu” - normy lokalnej - takiej jak usunięcie wartości średniej i podzielenie przez przykładowe odchylenie standardowe, np. W celu porównania posortowanych danych z kumulatywną normą lub kumulatywnym Poissonem lub cokolwiek.

Jeśli więc wykładowca lub menedżer chce, aby dane zostały „znormalizowane”, oznacza to „przeskalować to na swój sposób ” ;-)

Philip Oakley
źródło
9

Nie wiem, czy masz na myśli dokładnie to, ale widzę, że wiele osób odnoszących się do Normalizacji oznacza Standaryzację danych. Standaryzacja przekształca dane, więc ma średnią 0 i odchylenie standardowe 1:

x <- (x - mean(x)) / sd(x)

Widzę także osoby używające terminu Normalizacja do skalowania danych, jak w przypadku przekształcania danych do zakresu 0-1:

x <- (x - min(x)) / (max(x) - min(x))

To może być mylące!

Obie techniki mają swoje zalety i wady. Podczas skalowania zestawu danych ze zbyt wieloma wartościami odstającymi, dane nie będące wartościami odstającymi mogą skończyć się w bardzo krótkim odstępie czasu. Więc jeśli twój zestaw danych ma zbyt wiele wartości odstających, możesz rozważyć standaryzację. Niemniej jednak, kiedy to zrobisz, skończysz z danymi negatywnymi (czasami tego nie chcesz) i danymi niezwiązanymi (możesz również tego nie chcieć).

Renata
źródło
3

Centrowanie oznacza odjęcie średniej zmiennej losowej od zmiennych. Tj. X-xi

Skalowanie oznacza dzielenie zmiennej przez jej odchylenie standardowe. Tj. Xi / s

Połączenie tych dwóch nazywa się normalizacją lub standaryzacją. Tj. X-xi / s

Frankfurt Ogunfunminiyi
źródło
Pytanie jest duplikatem.
Michael Chernick