Czy dane normalizujące (mające zerową średnią i odchylenie standardowe jedności) przed powtórzeniem k-krotnej walidacji krzyżowej mają jakieś negatywne konsekwencje, takie jak nadmierne dopasowanie?
Uwaga: dotyczy to sytuacji, gdy # skrzynki> łączna liczba funkcji
Przekształcam niektóre moje dane za pomocą transformacji dziennika, a następnie normalizuję wszystkie dane jak wyżej. Następnie dokonuję wyboru funkcji. Następnie stosuję wybrane cechy i znormalizowane dane do powtarzanej 10-krotnej walidacji krzyżowej, aby spróbować oszacować uogólnioną wydajność klasyfikatora i obawiam się, że wykorzystanie wszystkich danych do normalizacji może nie być odpowiednie. Czy powinienem znormalizować dane testowe dla każdego krotnie przy użyciu danych normalizujących uzyskanych z danych treningowych dla tego krotnie?
Wszelkie opinie otrzymane z wdzięcznością! Przepraszamy, jeśli to pytanie wydaje się oczywiste.
Edycja: Podczas testowania tego (zgodnie z poniższymi sugestiami) stwierdziłem, że normalizacja przed CV nie wpłynęła znacząco na wydajność w porównaniu z normalizacją w CV.
źródło
Walidację krzyżową najlepiej postrzegać raczej jako metodę szacowania wydajności procedury statystycznej niż modelu statystycznego. Dlatego w celu uzyskania obiektywnego oszacowania wydajności należy powtórzyć każdy element tej procedury osobno w każdym folderze walidacji krzyżowej, co obejmowałoby normalizację. Powiedziałbym więc normalizuj w każdej zakładce.
Jedyny raz nie byłoby to konieczne, gdyby procedura statystyczna była całkowicie niewrażliwa na skalowanie i średnią wartość danych.
źródło
Myślę, że jeśli normalizacja obejmuje tylko dwa parametry i masz próbkę dobrej wielkości, nie będzie to problemem. Byłbym bardziej zaniepokojony transformacją i procesem selekcji zmiennych. 10-krotna walidacja krzyżowa wydaje się dziś modna. Czy nikt nie używa bootstrap 632 lub 632+ do szacowania wskaźnika błędów klasyfikatora, jak to sugerował najpierw Efron (1983) w JASA, a następnie w artykule Efron i Tibshirani z 632+?
źródło
Osobiście podoba mi się metoda .632. Co w zasadzie polega na wymiotowaniu z wymianą. Jeśli to zrobisz i usuniesz duplikaty, otrzymasz 632 wpisów z zestawu danych wejściowych 1000. Trochę ładnie.
źródło