W pracy rozmawialiśmy o tym, ponieważ mój szef nigdy nie słyszał o normalizacji. W algebrze liniowej normalizacja wydaje się odnosić do podziału wektora przez jego długość. A w statystykach normalizacja wydaje się odnosić do odejmowania średniej, a następnie dzielonej przez jej SD. Ale wydają się one również zamienne z innymi możliwościami.
Tworząc jakąś uniwersalną partyturę, która składa się z różnych wskaźników, które mają różne środki i różne SD, czy byś Normalizował, Standaryzował czy coś innego? Jedna osoba powiedziała mi, że to tylko kwestia wzięcia każdej metryki i podzielenia ich przez SD, indywidualnie. Następnie sumując dwa. Dzięki temu uzyskasz uniwersalny wynik, którego można użyć do oceny obu wskaźników.
Załóżmy na przykład, że masz liczbę osób, które jadą metrem do pracy (w Nowym Jorku) oraz liczbę osób, które pojechały do pracy (w Nowym Jorku).
Samochód ⟶ y
Jeśli chcesz stworzyć uniwersalny wynik, aby szybko zgłosić fluktuacje ruchu, nie możesz po prostu dodać i średniej ( y ), ponieważ będzie o wiele więcej osób jeździ pociągiem. W Nowym Jorku mieszka 8 milionów ludzi i turyści. To miliony ludzi jadących pociągiem codziennie werset setki tysięcy ludzi w samochodach. Dlatego muszą zostać przekształcone w podobną skalę, aby można je było porównać.
Jeśli
a
Każdy artykuł lub rozdziały książek w celach informacyjnych będą mile widziane. DZIĘKI!
Oto kolejny przykład tego, co próbuję zrobić.
Wyobraź sobie, że jesteś dziekanem college'u i omawiasz wymagania wstępne. Możesz chcieć studentów z przynajmniej pewnym GPA i pewnym wynikiem testu. Byłoby miło, gdyby oba były w tej samej skali, ponieważ wtedy można po prostu dodać je razem i powiedzieć: „Każdy, kto ma co najmniej 7.0, może zostać przyjęty”. W ten sposób, jeśli przyszły student ma GPA 4.0, może uzyskać wynik testowy 3.0 i nadal zostać przyjęty. I odwrotnie, jeśli ktoś miał 3.0 GPA, nadal mógł zostać przyjęty z wynikiem 4.0 testu.
Ale tak nie jest. ACT ma skalę 36 punktów, a większość GPA jest w wersji 4.0 (niektóre są 4.3, tak irytujące). Ponieważ nie mogę po prostu dodać ACT i GPA, aby uzyskać jakiś uniwersalny wynik, jak mogę go przekształcić, aby można je było dodać, tworząc w ten sposób uniwersalny wynik wstępu. A jako dziekan mogłem automatycznie zaakceptować każdego, kto uzyska wynik powyżej pewnego progu. Lub nawet automatycznie akceptuje wszystkich, których wynik mieści się w 95% najlepszych ... tego typu rzeczy.
Czy to byłaby normalizacja? normalizacja? czy po prostu dzielenie każdego przez SD, a następnie sumowanie?
Odpowiedzi:
Normalizacja przeskalowuje wartości w zakresie [0,1]. Może to być przydatne w niektórych przypadkach, w których wszystkie parametry muszą mieć tę samą skalę dodatnią. Jednak wartości odstające z zestawu danych zostaną utracone.
W przypadku większości aplikacji zaleca się standaryzację.
źródło
W świecie biznesu „normalizacja” zazwyczaj oznacza, że zakres wartości jest „znormalizowany w zakresie od 0,0 do 1,0”. „Standaryzacja” zazwyczaj oznacza, że zakres wartości jest „standaryzowany”, aby zmierzyć, ile standardowych odchyleń jest wartością od jego średniej. Jednak nie wszyscy się z tym zgodzą. Najlepiej wyjaśnij swoje definicje przed ich użyciem.
W każdym razie twoja transformacja musi dostarczyć czegoś pożytecznego.
Czy w przykładzie z pociągu / samochodu zyskujesz coś, wiedząc, ile standardowych odchyleń od ich średniej leży każda wartość? Jeśli wykreślisz te „znormalizowane” miary jako wykres xy, możesz zobaczyć korelację (patrz pierwszy wykres po prawej):
http://en.wikipedia.org/wiki/Correlation_and_dependence
Jeśli tak, czy to coś dla ciebie znaczy?
Jeśli chodzi o twój drugi przykład, jeśli chcesz „zrównać” GPA z jednej skali do drugiej, co te skale mają ze sobą wspólnego? Innymi słowy, w jaki sposób można przekształcić te wartości minimalne w równoważne, a maksymalne w równoważne?
Oto przykład „normalizacji”:
Link normalizacyjny
Czy po uzyskaniu wyników GPA i ACT w formie wymiennej sensowne jest ważenie wyników ACT i GPA w inny sposób? Jeśli tak, jakie znaczenie ma dla Ciebie znaczenie?
Edycja 1 (05/03/2011) ========================================= =
Najpierw sprawdzę linki sugerowane przez whucera powyżej. Najważniejsze jest to, że w obu problemach dwóch zmiennych będziesz musiał wymyślić „równoważność” jednej zmiennej względem drugiej. I sposób na odróżnienie jednej zmiennej od drugiej. Innymi słowy, nawet jeśli możesz to uprościć do prostej relacji liniowej, będziesz potrzebować „wag”, aby odróżnić jedną zmienną od drugiej.
Oto przykład problemu dwóch zmiennych:
Narzędzia z wieloma atrybutami
Z ostatniej strony, jeśli można powiedzieć, że znormalizowany ruch pociągów w
U1(x)
porównaniu ze znormalizowanym ruchem samochodowymU2(y)
jest „dodatnio niezależny”, być może uda się uciec od prostego równania, takiego jak:Gdzie k1 = 0,5 oznacza, że jesteś obojętny na znormalizowany ruch samochodów / pociągów. Wyższe k1 oznaczałoby, że ruch pociągów
U1(x)
jest ważniejszy.Jeśli jednak te dwie zmienne nie są „addytywnie niezależne”, będziesz musiał zastosować bardziej skomplikowane równanie. Jedną z możliwości przedstawiono na stronie 1:
W obu przypadkach będziesz musiał wymyślić narzędzie,
U(x, y)
które ma sens.Te same ogólne zasady ważenia / porównywania dotyczą twojego problemu GPA / ACT. Nawet jeśli są „znormalizowane”, a nie „znormalizowane”.
Ostatni problem. Wiem, że ci się to nie spodoba, ale definicja terminu „dodatnio niezależny” znajduje się na stronie 4 poniższego linku. Szukałem mniej naukowej definicji, ale nie mogłem jej znaleźć. Możesz się rozejrzeć, aby znaleźć coś lepszego.
Dodatkowo niezależny
Cytując link:
Jak zasugerowano na początku tej odpowiedzi, jeśli wykreślisz znormalizowany ruch pociągów w porównaniu ze znormalizowanym ruchem samochodowym na wykresie xy, możesz zobaczyć korelację. Jeśli tak, to utkniesz z powyższym nieliniowym równaniem użyteczności lub czymś podobnym.
źródło
Odpowiedź jest prosta, ale ci się nie spodoba: to zależy. Jeśli cenisz 1 odchylenie standardowe od obu punktów równo, następnie normalizacja jest droga (uwaga: w rzeczywistości, jesteś studentizing , bo jesteś podzielenie przez szacunek do SD populacji).
Jeśli nie, prawdopodobne jest, że standaryzacja będzie dobrym pierwszym krokiem, po którym możesz przypisać większą wagę jednemu z wyników, mnożąc przez dobrze wybrany czynnik.
źródło
Aby rozwiązać problem GPA / ACT lub problemu pociągu / samochodu, dlaczego nie użyć średniej geometrycznej ?
n√ (a1 × a2 × ... × an)
Gdzie
a*
jest wartość z rozkładu in
jest indeksem rozkładu.Ta średnia geometryczna upewnia się, że każda wartość wykracza poza jej skalę, w równym stopniu przyczynia się do wartości średniej. Zobacz więcej w Geometric Mean
źródło
W mojej dziedzinie, nauce o danych, normalizacja to transformacja danych, która pozwala na łatwe porównanie danych w dalszej części procesu. Istnieje wiele rodzajów normalizacji. Skalowanie jest jednym z nich. Możesz także rejestrować dane lub robić wszystko, co chcesz. Rodzaj zastosowanej normalizacji zależy od oczekiwanego wyniku, ponieważ wszystkie normalizacje przekształcają dane w coś innego.
Oto niektóre z przykładów, które uważam za przykłady normalizacji. Skalowanie normalizacji Normalizacja kwantowa
źródło