Jaka jest różnica między „normalizacją” danych a „skalowaniem” danych? Do tej pory myślałem, że oba terminy odnoszą się do tego samego procesu, ale teraz zdaję sobie sprawę, że jest coś więcej, czego nie wiem / nie rozumiem. Także jeśli istnieje różnica między normalizacją a skalowaniem, kiedy powinniśmy używać normalizacji, ale nie skalowania i odwrotnie?
Proszę podać przykład.
Odpowiedzi:
Nie znam „oficjalnej” definicji i nawet jeśli istnieje, nie powinieneś jej ufać, ponieważ zobaczysz, że jest ona niekonsekwentnie stosowana w praktyce.
To powiedziawszy, skalowanie w statystyce zwykle oznacza liniową transformację postaci .f(x)=ax+b
Normalizacja może oznaczać zastosowanie transformacji, tak aby przekształcone dane były z grubsza normalnie rozłożone, ale może również oznaczać po prostu umieszczenie różnych zmiennych na wspólnej skali. Standaryzacja, która oznacza odjęcie średniej i podzielenie przez odchylenie standardowe, jest przykładem późniejszego użycia. Jak widać, jest to również przykład skalowania. Przykładem może być zapisanie logarytmicznie rozproszonych danych.
Ale powinieneś zabrać to, że kiedy ją czytasz, powinieneś poszukać dokładniejszego opisu tego, co zrobił autor. Czasami można to uzyskać z kontekstu.
źródło
Skalowanie to osobisty wybór, aby liczby były poprawne, np. Od zera do jednego lub od jednego do stu. Na przykład konwertuje dane podane w milimetrach na metry, ponieważ jest to wygodniejsze lub imperialne na metryczne.
Podczas gdy normalizacja polega na skalowaniu do zewnętrznego „standardu” - normy lokalnej - takiej jak usunięcie wartości średniej i podzielenie przez przykładowe odchylenie standardowe, np. W celu porównania posortowanych danych z kumulatywną normą lub kumulatywnym Poissonem lub cokolwiek.
Jeśli więc wykładowca lub menedżer chce, aby dane zostały „znormalizowane”, oznacza to „przeskalować to na swój sposób ” ;-)
źródło
Nie wiem, czy masz na myśli dokładnie to, ale widzę, że wiele osób odnoszących się do Normalizacji oznacza Standaryzację danych. Standaryzacja przekształca dane, więc ma średnią 0 i odchylenie standardowe 1:
Widzę także osoby używające terminu Normalizacja do skalowania danych, jak w przypadku przekształcania danych do zakresu 0-1:
To może być mylące!
Obie techniki mają swoje zalety i wady. Podczas skalowania zestawu danych ze zbyt wieloma wartościami odstającymi, dane nie będące wartościami odstającymi mogą skończyć się w bardzo krótkim odstępie czasu. Więc jeśli twój zestaw danych ma zbyt wiele wartości odstających, możesz rozważyć standaryzację. Niemniej jednak, kiedy to zrobisz, skończysz z danymi negatywnymi (czasami tego nie chcesz) i danymi niezwiązanymi (możesz również tego nie chcieć).
źródło
Centrowanie oznacza odjęcie średniej zmiennej losowej od zmiennych. Tj. X-xi
Skalowanie oznacza dzielenie zmiennej przez jej odchylenie standardowe. Tj. Xi / s
Połączenie tych dwóch nazywa się normalizacją lub standaryzacją. Tj. X-xi / s
źródło