Częstym etapem wstępnego przetwarzania algorytmów uczenia maszynowego jest wybielanie danych.
Wydaje się, że zawsze dobrze jest wybielić, ponieważ dekoreluje dane, co ułatwia modelowanie.
Kiedy wybielanie nie jest zalecane?
Uwaga: mam na myśli dekorelację danych.
data-transformation
Biegł
źródło
źródło
Odpowiedzi:
Wstępne wybielanie to uogólnienie normalizacji cech, które uniezależnia dane wejściowe, przekształcając je względem przekształconej macierzy kowariancji wejściowej. Nie rozumiem, dlaczego to może być coś złego.
Jednak szybkie wyszukiwanie ujawniło „Wykonalność wybielania danych w celu poprawy wydajności radaru pogodowego” ( pdf ), który brzmi:
Nie jestem wystarczająco wykształcony, aby komentować to. Być może odpowiedź na twoje pytanie jest taka, że wybielanie jest zawsze dobre, ale istnieją pewne błędy (np. Przy losowych danych nie zadziała dobrze, jeśli zostanie wykonane za pomocą funkcji autokorelacji Gaussa).
źródło
Po pierwsze, uważam, że dekorelacja i wybielanie to dwie osobne procedury.
Możemy również zapisać przekątną kowariancję jako:
I wreszcie, istnieje powszechna „gotcha”, na którą ludzie powinni uważać. Należy uważać, aby obliczyć współczynniki skalowania na danych treningowych , a następnie użyć równań (2) i (3), aby zastosować te same współczynniki skalowania do danych testowych, w przeciwnym razie istnieje ryzyko przeregulowania (używałbyś informacje z zestawu testów w procesie szkolenia).
Źródło: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf
źródło
From http://cs231n.github.io/neural-networks-2/
Niestety nie jestem wystarczająco wykształcony, aby komentować dalej.
źródło