W The Elements of Statistics Learning znalazłem następujące stwierdzenie:
Istnieje jedna kwalifikacja: wstępne pomiary bez nadzoru można wykonać przed pominięciem próbek. Na przykład, moglibyśmy wybrać 1000 predyktorów o największej wariancji we wszystkich 50 próbkach przed rozpoczęciem walidacji krzyżowej. Ponieważ to filtrowanie nie obejmuje etykiet klas, nie zapewnia nieuczciwej przewagi predyktorom.
Czy to jest rzeczywiście ważne? Mam na myśli to, że filtrując atrybuty wcześniej, nie naśladujemy danych szkoleniowych / nowego środowiska danych - czy to ma znaczenie, że filtrowanie, które wykonujemy, nie jest nadzorowane? Czy nie lepiej jest wykonać wszystkie etapy wstępnego przetwarzania w ramach procesu weryfikacji krzyżowej? Jeśli tak nie jest, oznacza to, że wszystkie wcześniejsze nadzorowanie bez nadzoru można wykonać wcześniej, w tym normalizację funkcji / PCA itp. Ale robiąc to na całym zestawie treningowym, w rzeczywistości wyciekamy niektóre dane do zestawu treningowego. Zgadzam się, że przy stosunkowo stabilnym zbiorze danych różnice te najprawdopodobniej są bardzo małe - ale to nie znaczy, że nie istnieją, prawda? Jaki jest właściwy sposób myślenia o tym?
Zaczynam się różnić w tym pytaniu zarówno opinią @ AmiTavory, jak i elementami uczenia statystycznego.
Pochodzę z zastosowanego pola o bardzo małych próbkach, mam doświadczenie, że również bez nadzoru etapy obróbki wstępnej mogą powodować poważne uprzedzenia.
W mojej dziedzinie byłoby to najczęściej PCA w celu zmniejszenia wymiarów przed przeszkoleniem klasyfikatora. Chociaż nie mogę tutaj wyświetlić danych, widziałem PCA + (LDA z potwierdzeniem krzyżowym) w porównaniu z PCD + (LDA) niedoszacowanie poziomu błędu o około rząd wielkości . (Jest to zwykle wskaźnik, że PCA nie jest stabilny).
Jeśli chodzi o argumentację „nieuczciwej przewagi” elementów, jeśli zbadana zostanie wariancja zestawów przypadków testowych +, uzyskujemy funkcje, które działają dobrze zarówno w przypadku szkolenia, jak i testów Tworzymy tutaj samospełniającą się przepowiednię, która jest przyczyną nadmiernie optymistycznego nastawienia. Ta tendencja jest niska, jeśli masz dość wygodne rozmiary próbek.
Polecam więc podejście nieco bardziej konserwatywne niż elementy:
To powiedziawszy, również walalizacja krzyżowa jest tylko skrótem do przeprowadzenia właściwego badania walidacyjnego. Dlatego możesz kłócić się z praktycznością:
Możesz sprawdzić, czy dane przetwarzanie wstępne daje stabilne wyniki (możesz to zrobić np. Przez weryfikację krzyżową). Jeśli uznasz, że jest on w pełni stabilny już przy mniejszych rozmiarach próbek, IMHO może argumentować, że nie zostanie wprowadzony zbyt duży błąd poprzez wyciągnięcie go z weryfikacji krzyżowej.
Jednak, aby zacytować poprzedniego przełożonego: czas obliczania nie jest naukowym argumentem.
Często wybieram „podgląd” kilku folderów i kilka iteracji w celu weryfikacji krzyżowej, aby upewnić się, że cały kod (w tym podsumowanie / wykresy wyników), a następnie zostawić go na noc lub w weekend na serwerze na jakiś czas bardziej szczegółowa walidacja krzyżowa.
źródło