Często widzę ludzi, którzy określają wymiar / cechę zestawu danych jako zero-średnią poprzez usunięcie średniej ze wszystkich elementów. Ale nigdy nie rozumiałem, dlaczego to robić? Jaki jest efekt robienia tego jako etapu wstępnego przetwarzania? Czy poprawia to klasyfikację? Czy pomaga odpowiedzieć na coś o zestawie danych? Czy pomaga w wizualizacji zrozumieć dane?
data-mining
dataset
Jack Twain
źródło
źródło
Odpowiedzi:
Niektóre przypadki, w których przydatne jest „wyśrodkowanie danych na ich średniej” (dalej po prostu „usunięcie znaczeń”):
1) Wizualne wykrycie, czy rozkład jest „taki sam” jak inny rozkład, tyle że został przesunięty na linii rzeczywistej. Ustawienie obu rozkładów na zero oznacza, że ta kontrola wizualna jest znacznie łatwiejsza. Czasami, jeśli średnia wartość różni się znacznie, przeglądanie ich na tym samym wykresie jest niepraktyczne. Pomyśl o dwóch normalnych wartościach RV, powiedzmy i . Te kształty z wykresami gęstości są identyczne, tylko ich pozycja różni się od rzeczywistego liniowych. Teraz wyobraź sobie, że masz wykresy ich funkcji gęstości, ale nie znasz ich wariancji. Usunięcie znaczenia spowoduje nałożenie jednego wykresu na drugi.N ( 100 , 4 )N(10,4) N(100,4)
2) Uprość obliczenia wyższych momentów: chociaż dodanie stałej do zmiennej losowej nie zmienia jej wariancji ani kowariancji z inną zmienną losową, jednak jeśli masz średnią różną od zera i musisz zapisać szczegółowe obliczenia, Ci mają napisać wszystkie warunki i pokazać, że znoszą się. Jeśli zmienne są pozbawione znaczenia, zapisujesz wiele niepotrzebnych obliczeń.
3) Zmienne losowe wyśrodkowane na ich średniej są przedmiotem centralnego twierdzenia granicznego
4) Odchylenia od „wartości średniej” są w wielu przypadkach przedmiotem zainteresowania i tego, czy mają tendencję do „powyżej lub poniżej średniej”, a nie rzeczywiste wartości zmiennych losowych. „Translacja” (wizualnie i / lub obliczeniowo) odchyleń poniżej średniej jako wartości ujemnych i odchyleń powyżej średniej jako wartości dodatnich, sprawia, że przekaz jest wyraźniejszy i silniejszy.
Aby uzyskać bardziej szczegółowe dyskusje, zobacz także
Kiedy przeprowadzając regresję wielokrotną, należy wyśrodkować zmienne predykcyjne i kiedy je znormalizować?
Centrowanie danych w regresji wielokrotnej
Jeśli przeszukujesz „wyśrodkowane dane” w CV, znajdziesz także inne interesujące posty.
źródło
Również ze względów praktycznych korzystne jest centrowanie danych, na przykład podczas szkolenia sieci neuronowych.
Chodzi o to, że aby wyszkolić sieć neuronową, należy rozwiązać problem niewypukłej optymalizacji, stosując podejście oparte na gradiencie. Gradienty są obliczane za pomocą propagacji wstecznej. Teraz te gradienty zależą od danych wejściowych, a centrowanie danych usuwa ewentualne odchylenie gradientów.
Konkretnie, niezerowa średnia znajduje odzwierciedlenie w dużej wartości własnej, co oznacza, że gradienty wydają się być większe w jednym kierunku niż w innych (odchylenie), co spowalnia proces konwergencji, co ostatecznie prowadzi do gorszych rozwiązań.
źródło
Aby dodać do tego, co powiedział Alecos, co jest bardzo dobre, centrowanie danych na zero jest niezwykle ważne podczas korzystania z statystyki bayesowskiej lub regularyzacji, ponieważ w przeciwnym razie dane mogą być skorelowane z przechwytywaniem, co sprawia, że normalizacja nie robi tego, co zwykle chcesz.
Uczynienie danych zerową średnią może zmniejszyć wiele nie-diagonalnych składników macierzy kowariancji, dzięki czemu dane są łatwiejsze do interpretacji, a współczynniki bardziej bezpośrednio znaczące, ponieważ każdy współczynnik dotyczy przede wszystkim tego współczynnika i działa mniej poprzez korelację z inne czynniki.
źródło