Czy dzielenie danych na zestawy testowe i szkoleniowe to czysto „statystyki”?

11

Jestem studentem fizyki studiującym uczenie maszynowe / informatykę, więc nie mam na myśli, aby to pytanie wywoływało jakiekolwiek konflikty :) Jednak dużą częścią każdego programu licencjackiego z fizyki jest przeprowadzanie laboratoriów / eksperymentów, co oznacza dużo danych przetwarzanie i analiza statystyczna. Zauważam jednak wyraźną różnicę między sposobem, w jaki fizycy radzą sobie z danymi, a sposobem, w jaki moje dane dotyczące nauki / statystycznych książek edukacyjnych radzą sobie z danymi.

Kluczowa różnica polega na tym, że podczas próby regresji danych uzyskanych z eksperymentów fizycznych algorytmy regresji są stosowane do CAŁEGO zestawu danych, absolutnie nie ma podziału na zestawy szkoleniowe i testowe. W świecie fizyki R ^ 2 lub jakiś rodzaj pseudo-R ^ 2 jest obliczany dla modelu na podstawie całego zestawu danych. W świecie statystyk dane prawie zawsze są dzielone na 80-20, 70-30 itd., A następnie model jest oceniany na podstawie zestawu danych testowych.

Istnieją również niektóre duże eksperymenty fizyki (ATLAS, BICEP2 itp.), Które nigdy nie dzielą danych, więc zastanawiam się, dlaczego istnieje tak ogromna różnica między sposobem, w jaki fizycy / eksperymentaliści wykonują statystyki, a sposobem, w jaki naukowcy danych robić statystyki.

Thomas Moore
źródło
1
(+1) bardzo fajne pytanie (że nie mam czasu na właściwe udzielenie odpowiedzi). Komentarz: Fizyka ma luksus „prawdziwych eksperymentów”; ogólnie kontrolowane / laboratoryjne warunki, głównie dobrze określone wyniki / zmienne i zakładana powtarzalność. Zwykłe projekty dotyczące zdrowia publicznego / ekonometrii / statystyk ankiet (aby wspomnieć o kilku oczywistych subpólach) po prostu tego nie rozumieją. Mylących, sezonowość (Time-zależność) i ogólnie dryf koncepcji jest rozpowszechnione statystyki więc ten „podział danych” jest jednym z oczywistych sposobów, aby zapobiec całkowicie głupie wyników. Ponadto nie wszystkie estymatory są tworzone równie wydajnie. :)
usεr11852
3
Bogactwo stosownej dyskusji i tła znajduje się w niedawnym dokumencie do dyskusji Davida Donoho, profesora statystyki na Stanford: Kursy.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf Zobacz szczególnie dyskusję na temat „Kultury predykcyjnej ”w przeciwieństwie do tradycyjnych statystyk.
Gordon Smyth,
1
Myślę, że jest to rzecz „przewidywania przy braku teorii”, która jest małym podzbiorem „statystyk” i dużą częścią uczenia maszynowego.
The Laconic
statystycy też nie dzielą swoich danych (p <.05)
rep_ho,
@rep_ho niektórzy - być może wielu - statystycy związani z sytuacjami, w których ważne jest przewidywanie próby, a niektórzy robili to od dłuższego czasu. Pomysły, takie jak na przykład walidacja krzyżowa i statystyka pomijana, istnieją od wieków. Jednak statystycy nie dzielą się tylko raz, chyba że jest to nieuniknione. Może to zależeć od tego, z którymi statystykami rozmawiasz
Glen_b

Odpowiedzi:

6

Nie wszystkie procedury statystyczne dzielą się na dane dotyczące szkolenia / testów, zwane również „wzajemną weryfikacją” (chociaż cała procedura wymaga nieco więcej).

Jest to raczej technika, która jest konkretnie stosowana do oszacowania błędu poza próbą ; tj. jak dobrze twój model będzie przewidywał nowe wyniki przy użyciu nowego zestawu danych? Staje się to bardzo ważnym problemem, gdy masz na przykład bardzo dużą liczbę predyktorów w stosunku do liczby próbek w zbiorze danych. W takich przypadkach bardzo łatwo jest zbudować model z dużym błędem w próbie, ale strasznym błędem poza próbą (zwanym „przeregulowaniem”). W przypadkach, gdy masz zarówno dużą liczbę predyktorów, jak i dużą liczbę próbek, weryfikacja krzyżowa jest niezbędnym narzędziem pomagającym ocenić, jak model zachowa się podczas przewidywania nowych danych. Jest to również ważne narzędzie przy wybieraniu konkurencyjnych modeli predykcyjnych.

Z drugiej strony, walidacja krzyżowa jest prawie zawsze używana tylko podczas próby zbudowania modelu predykcyjnego . Ogólnie rzecz biorąc, nie jest to bardzo pomocne w przypadku modeli, gdy próbujesz oszacować efekt niektórych zabiegów. Na przykład, jeśli porównujesz rozkład wytrzymałości na rozciąganie między materiałami A i B („obróbka” jest rodzajem materiału), walidacja krzyżowa nie będzie konieczna; choć mamy nadzieję, że nasze oszacowanie efektu leczenia uogólnia się na próbie, w przypadku większości problemów klasyczna teoria statystyczna może odpowiedzieć na to (tj. „standardowe błędy” oszacowań) bardziej precyzyjnie niż walidacja krzyżowa. Niestety klasyczna metodologia statystyczna 1dla standardowych błędów nie zatrzymuje się w przypadku przeregulowania. W takim przypadku walidacja krzyżowa często przynosi znacznie lepsze wyniki.

Z drugiej strony, jeśli próbujesz przewidzieć, kiedy materiał się zepsuje na podstawie 10 000 mierzonych zmiennych, które wrzucisz do jakiegoś modelu uczenia maszynowego opartego na 100 000 obserwacji, będziesz miał wiele problemów z budowaniem świetnego modelu bez krzyżowej weryfikacji!

Zgaduję, że w wielu przeprowadzonych eksperymentach fizycznych jesteś ogólnie zainteresowany oszacowaniem efektów. W takich przypadkach walidacja krzyżowa jest bardzo niewielka.

1 Można argumentować, że metody bayesowskie z informacyjnymi priory są klasyczną metodologią statystyczną, która dotyczy nadmiernego dopasowania. Ale to kolejna dyskusja.

Uwaga dodatkowa: chociaż po raz pierwszy w literaturze statystycznej pojawiła się weryfikacja krzyżowa i jest ona zdecydowanie używana przez osoby nazywające się statystykami, stała się podstawowym wymaganym narzędziem w społeczności uczącej się maszynowo. Wiele modeli statystyk będzie działać dobrze bez użycia weryfikacji krzyżowej, ale prawie wszystkie modele uważane za „modele predykcyjne uczenia maszynowego” wymagają weryfikacji krzyżowej, ponieważ często wymagają one wyboru parametrów dostrajania, co jest prawie niemożliwe bez krzyżowania -uprawomocnienie.

Cliff AB
źródło
np
@ usεr11852: tak, ale prawie niemożliwe jest wybranie rozsądnych kar regularyzacyjnych bez krzyżowej weryfikacji (inne niż myślenie o karach jako priory bayesowskich, ale to trudne w przypadku modeli czarnej skrzynki!). I chociaż chcemy, aby nasze wyniki w porównaniu A do B nie obejmowały próbki, nie jest to zwykle problem wymagający strojenia modelu (jak często przewidywanie), a przy stosunkowo niskiej liczbie parametrów klasyczna teoria statystyczna może sobie z tym poradzić bez użycia weryfikacji krzyżowej.
Cliff AB
Jest to okrągły argument, w przypadku legalizacji stosuje się sprawdzanie poprawności krzyżowej, ale sprawdzanie poprawności odbywa się w celu uregulowania. Dlatego na początku trochę temu skomentowałem. Myślę, że wnioskowanie statystyczne / przyczynowość odchodzi od tego nie-modelowego podejścia dostrajania (patrz na przykład Johansson i in. 2016 „Uczenie się reprezentacji dla wnioskowania kontrfaktycznego” - taki bałaganiarski piękny papier). Wreszcie, badania fizyki fundamentalnej, gdy zostaną przedstawione, trudne problemy mogą również polegać na podejściu ML (np. Higgs Boson Machine Learning Challenge ).
usεr11852
@ usεr11852 Normalizacja nie „używa” walidacji krzyżowej, ale raczej twój parametr strojenia do regularyzacji jest wybierany za pomocą walidacji krzyżowej. Na przykład, patrz glment„s cv.glmnetdla całego postępowania w ładnym kompaktowej funkcji.
Cliff AB,
1
Nigdy też nie twierdziłem, że badania fizyki nie mogą wykorzystywać metod ML ani walidacji krzyżowej! Wyjaśniłem tylko, że walidacja krzyżowa jest zwykle używana specjalnie do wybierania między złożonymi modelami / parametrami dostrajania w modelach predykcyjnych i że w wielu klasycznych eksperymentach fizycznych walidacja krzyżowa nie jest konieczna. Zatem to, co fizycy robią z tymi danymi, niekoniecznie stoi w sprzeczności z tym, co statystycy zrobiliby z tymi danymi, które moim zdaniem były sednem pytania PO.
Cliff AB,
3

Jako chemik (analityczny) spotykam oba podejścia: analityczne obliczanie liczb zasług (głównie dla regresji jednoczynnikowej), a także bezpośredni pomiar predykcyjnych liczb zasług.
Podział pociągu / testu jest dla mnie „młodszym bratem” eksperymentu walidacyjnego do pomiaru jakości prognozowania.


Długa odpowiedź:

Typowe eksperymenty, które wykonujemy np. Na studiach chemii fizycznej, wykorzystują regresję jednowymiarową. Właściwością będącą przedmiotem zainteresowania są często parametry modelu, np. Stała czasowa podczas pomiaru kinetyki reakcji, ale czasem także prognozy (np. Jednoznaczna kalibracja liniowa w celu przewidywania / pomiaru pewnej wartości zainteresowania).
Sytuacje te są bardzo łagodne z punktu widzenia niedopasowania: zwykle po oszacowaniu wszystkich parametrów pozostawia się wygodną liczbę stopni swobody i służą one do szkolenia (jak w edukacji) uczniów z klasycznym obliczaniem przedziału ufności lub przedziału prognozy oraz klasycznym błędem rozmnażanie - zostały opracowane dla takich sytuacji. I nawet jeśli sytuacja nie jest całkowicie podobna do podręcznika (np. Mam strukturę w moich danych, np. W kinetyce, oczekiwałbym, że dane są lepiej opisane przez wariancję między przebiegami reakcji + wariancję między pomiarami w przebiegu niż przez zwykłe podejście oparte tylko na jednej wariancji), zazwyczaj mogę przeprowadzić wystarczającą liczbę eksperymentów, aby uzyskać przydatne wyniki.

pnn<pnnnrefa, klasyczne podejścia nie działają. Ale ponieważ głównie wykonuję prognozy, zawsze mam bardzo bezpośrednią możliwość pomiaru zdolności predykcyjnej mojego modelu: wykonuję prognozy i porównuję je z wartościami odniesienia.

To podejście jest w rzeczywistości bardzo potężne (choć kosztowne ze względu na zwiększony wysiłek eksperymentalny), ponieważ pozwala mi sondować jakość predykcyjną również w warunkach, które nie zostały uwzględnione w danych treningowych / kalibracyjnych. Np. Mogę zmierzyć, w jaki sposób jakość predykcyjna pogarsza się po ekstrapolacji (ekstrapolacja obejmuje również np. Pomiary wykonane, powiedzmy, miesiąc po pozyskaniu danych treningowych), mogę zbadać odporność na zakłócające czynniki, które, jak sądzę, będą ważne itp. Innymi słowy , możemy badać zachowanie naszego modelu tak samo, jak badamy zachowanie dowolnego innego systemu: badamy pewne punkty lub zakłócamy go i patrzymy na zmianę odpowiedzi systemu itp.

Powiedziałbym, że im ważniejsza jest jakość predykcyjna (i wyższe ryzyko nadmiernego dopasowania), tym bardziej wolimy bezpośrednie pomiary jakości predykcyjnej niż liczby uzyskane na podstawie analizy. (Oczywiście moglibyśmy uwzględnić wszystkie te pomieszania również w projekcie eksperymentu szkoleniowego). Niektóre obszary, takie jak diagnostyka medyczna, wymagają przeprowadzenia odpowiednich badań walidacyjnych, zanim model zostanie „wypuszczony” na prawdziwych pacjentów.

Podział na pociąg / test (bez względu na to, czy wstrzymuje się *, czy też walidacja krzyżowa, pasek startowy lub ...) ułatwia ten krok. Zapisujemy dodatkowy eksperyment i nie dokonujemy ekstrapolacji (uogólniamy tylko do przewidywania nieznanych niezależnych przypadków tego samego rozkładu danych treningowych). Opisałbym to raczej jako weryfikację niż walidację (chociaż walidacja znajduje się głęboko w terminologii tutaj). Jest to często pragmatyczny sposób postępowania, jeśli nie ma zbyt wysokich wymagań co do dokładności liczb merytorycznych (może nie być konieczne ich dokładne określenie w scenariuszu weryfikacji koncepcji).

* nie należy mylić pojedynczego losowego podziału na pociąg i testować z odpowiednio zaprojektowanym badaniem w celu zmierzenia jakości prognozy.

cbeleites niezadowoleni z SX
źródło
2
+1 za wskazanie różnicy w weryfikacji i weryfikacji.
prezenter