Jestem studentem fizyki studiującym uczenie maszynowe / informatykę, więc nie mam na myśli, aby to pytanie wywoływało jakiekolwiek konflikty :) Jednak dużą częścią każdego programu licencjackiego z fizyki jest przeprowadzanie laboratoriów / eksperymentów, co oznacza dużo danych przetwarzanie i analiza statystyczna. Zauważam jednak wyraźną różnicę między sposobem, w jaki fizycy radzą sobie z danymi, a sposobem, w jaki moje dane dotyczące nauki / statystycznych książek edukacyjnych radzą sobie z danymi.
Kluczowa różnica polega na tym, że podczas próby regresji danych uzyskanych z eksperymentów fizycznych algorytmy regresji są stosowane do CAŁEGO zestawu danych, absolutnie nie ma podziału na zestawy szkoleniowe i testowe. W świecie fizyki R ^ 2 lub jakiś rodzaj pseudo-R ^ 2 jest obliczany dla modelu na podstawie całego zestawu danych. W świecie statystyk dane prawie zawsze są dzielone na 80-20, 70-30 itd., A następnie model jest oceniany na podstawie zestawu danych testowych.
Istnieją również niektóre duże eksperymenty fizyki (ATLAS, BICEP2 itp.), Które nigdy nie dzielą danych, więc zastanawiam się, dlaczego istnieje tak ogromna różnica między sposobem, w jaki fizycy / eksperymentaliści wykonują statystyki, a sposobem, w jaki naukowcy danych robić statystyki.
źródło
Odpowiedzi:
Nie wszystkie procedury statystyczne dzielą się na dane dotyczące szkolenia / testów, zwane również „wzajemną weryfikacją” (chociaż cała procedura wymaga nieco więcej).
Jest to raczej technika, która jest konkretnie stosowana do oszacowania błędu poza próbą ; tj. jak dobrze twój model będzie przewidywał nowe wyniki przy użyciu nowego zestawu danych? Staje się to bardzo ważnym problemem, gdy masz na przykład bardzo dużą liczbę predyktorów w stosunku do liczby próbek w zbiorze danych. W takich przypadkach bardzo łatwo jest zbudować model z dużym błędem w próbie, ale strasznym błędem poza próbą (zwanym „przeregulowaniem”). W przypadkach, gdy masz zarówno dużą liczbę predyktorów, jak i dużą liczbę próbek, weryfikacja krzyżowa jest niezbędnym narzędziem pomagającym ocenić, jak model zachowa się podczas przewidywania nowych danych. Jest to również ważne narzędzie przy wybieraniu konkurencyjnych modeli predykcyjnych.
Z drugiej strony, walidacja krzyżowa jest prawie zawsze używana tylko podczas próby zbudowania modelu predykcyjnego . Ogólnie rzecz biorąc, nie jest to bardzo pomocne w przypadku modeli, gdy próbujesz oszacować efekt niektórych zabiegów. Na przykład, jeśli porównujesz rozkład wytrzymałości na rozciąganie między materiałami A i B („obróbka” jest rodzajem materiału), walidacja krzyżowa nie będzie konieczna; choć mamy nadzieję, że nasze oszacowanie efektu leczenia uogólnia się na próbie, w przypadku większości problemów klasyczna teoria statystyczna może odpowiedzieć na to (tj. „standardowe błędy” oszacowań) bardziej precyzyjnie niż walidacja krzyżowa. Niestety klasyczna metodologia statystyczna 1dla standardowych błędów nie zatrzymuje się w przypadku przeregulowania. W takim przypadku walidacja krzyżowa często przynosi znacznie lepsze wyniki.
Z drugiej strony, jeśli próbujesz przewidzieć, kiedy materiał się zepsuje na podstawie 10 000 mierzonych zmiennych, które wrzucisz do jakiegoś modelu uczenia maszynowego opartego na 100 000 obserwacji, będziesz miał wiele problemów z budowaniem świetnego modelu bez krzyżowej weryfikacji!
Zgaduję, że w wielu przeprowadzonych eksperymentach fizycznych jesteś ogólnie zainteresowany oszacowaniem efektów. W takich przypadkach walidacja krzyżowa jest bardzo niewielka.
1 Można argumentować, że metody bayesowskie z informacyjnymi priory są klasyczną metodologią statystyczną, która dotyczy nadmiernego dopasowania. Ale to kolejna dyskusja.
Uwaga dodatkowa: chociaż po raz pierwszy w literaturze statystycznej pojawiła się weryfikacja krzyżowa i jest ona zdecydowanie używana przez osoby nazywające się statystykami, stała się podstawowym wymaganym narzędziem w społeczności uczącej się maszynowo. Wiele modeli statystyk będzie działać dobrze bez użycia weryfikacji krzyżowej, ale prawie wszystkie modele uważane za „modele predykcyjne uczenia maszynowego” wymagają weryfikacji krzyżowej, ponieważ często wymagają one wyboru parametrów dostrajania, co jest prawie niemożliwe bez krzyżowania -uprawomocnienie.
źródło
glment
„scv.glmnet
dla całego postępowania w ładnym kompaktowej funkcji.Jako chemik (analityczny) spotykam oba podejścia: analityczne obliczanie liczb zasług (głównie dla regresji jednoczynnikowej), a także bezpośredni pomiar predykcyjnych liczb zasług.
Podział pociągu / testu jest dla mnie „młodszym bratem” eksperymentu walidacyjnego do pomiaru jakości prognozowania.
Długa odpowiedź:
Typowe eksperymenty, które wykonujemy np. Na studiach chemii fizycznej, wykorzystują regresję jednowymiarową. Właściwością będącą przedmiotem zainteresowania są często parametry modelu, np. Stała czasowa podczas pomiaru kinetyki reakcji, ale czasem także prognozy (np. Jednoznaczna kalibracja liniowa w celu przewidywania / pomiaru pewnej wartości zainteresowania).
Sytuacje te są bardzo łagodne z punktu widzenia niedopasowania: zwykle po oszacowaniu wszystkich parametrów pozostawia się wygodną liczbę stopni swobody i służą one do szkolenia (jak w edukacji) uczniów z klasycznym obliczaniem przedziału ufności lub przedziału prognozy oraz klasycznym błędem rozmnażanie - zostały opracowane dla takich sytuacji. I nawet jeśli sytuacja nie jest całkowicie podobna do podręcznika (np. Mam strukturę w moich danych, np. W kinetyce, oczekiwałbym, że dane są lepiej opisane przez wariancję między przebiegami reakcji + wariancję między pomiarami w przebiegu niż przez zwykłe podejście oparte tylko na jednej wariancji), zazwyczaj mogę przeprowadzić wystarczającą liczbę eksperymentów, aby uzyskać przydatne wyniki.
To podejście jest w rzeczywistości bardzo potężne (choć kosztowne ze względu na zwiększony wysiłek eksperymentalny), ponieważ pozwala mi sondować jakość predykcyjną również w warunkach, które nie zostały uwzględnione w danych treningowych / kalibracyjnych. Np. Mogę zmierzyć, w jaki sposób jakość predykcyjna pogarsza się po ekstrapolacji (ekstrapolacja obejmuje również np. Pomiary wykonane, powiedzmy, miesiąc po pozyskaniu danych treningowych), mogę zbadać odporność na zakłócające czynniki, które, jak sądzę, będą ważne itp. Innymi słowy , możemy badać zachowanie naszego modelu tak samo, jak badamy zachowanie dowolnego innego systemu: badamy pewne punkty lub zakłócamy go i patrzymy na zmianę odpowiedzi systemu itp.
Powiedziałbym, że im ważniejsza jest jakość predykcyjna (i wyższe ryzyko nadmiernego dopasowania), tym bardziej wolimy bezpośrednie pomiary jakości predykcyjnej niż liczby uzyskane na podstawie analizy. (Oczywiście moglibyśmy uwzględnić wszystkie te pomieszania również w projekcie eksperymentu szkoleniowego). Niektóre obszary, takie jak diagnostyka medyczna, wymagają przeprowadzenia odpowiednich badań walidacyjnych, zanim model zostanie „wypuszczony” na prawdziwych pacjentów.
Podział na pociąg / test (bez względu na to, czy wstrzymuje się *, czy też walidacja krzyżowa, pasek startowy lub ...) ułatwia ten krok. Zapisujemy dodatkowy eksperyment i nie dokonujemy ekstrapolacji (uogólniamy tylko do przewidywania nieznanych niezależnych przypadków tego samego rozkładu danych treningowych). Opisałbym to raczej jako weryfikację niż walidację (chociaż walidacja znajduje się głęboko w terminologii tutaj). Jest to często pragmatyczny sposób postępowania, jeśli nie ma zbyt wysokich wymagań co do dokładności liczb merytorycznych (może nie być konieczne ich dokładne określenie w scenariuszu weryfikacji koncepcji).
* nie należy mylić pojedynczego losowego podziału na pociąg i testować z odpowiednio zaprojektowanym badaniem w celu zmierzenia jakości prognozy.
źródło