Jeśli dopasujesz funkcję nieliniową do zestawu punktów (zakładając, że dla każdej odciętej jest tylko jedna rzędna), wynikiem może być:
- bardzo złożona funkcja z małymi resztkami
- bardzo prosta funkcja z dużymi resztkami
Krzyżowa walidacja jest powszechnie stosowana w celu znalezienia „najlepszego” kompromisu między tymi dwoma skrajnościami. Ale co znaczy „najlepszy”? Czy to „najbardziej prawdopodobne”? Jak zacząłbyś w ogóle udowodnić, jakie jest najbardziej prawdopodobne rozwiązanie?
Mój wewnętrzny głos mówi mi, że CV znajduje jakieś rozwiązanie minimalnej energii. To sprawia, że myślę o entropii, o której niejasno wiem, że występuje zarówno w statystykach, jak i fizyce.
Wydaje mi się, że „najlepsze” dopasowanie jest generowane przez minimalizację sumy funkcji złożoności i błędu, tj
minimising m where m = c(Complexity) + e(Error)
Czy to ma jakiś sens? Jakie byłyby funkcje c i e?
Czy możesz wyjaśnić, używając języka matematycznego, ponieważ nie zrozumiem wiele matematyki.
Odpowiedzi:
Myślę, że to doskonałe pytanie. Sparafrazuję to, aby upewnić się, że mam rację:
Myślę, że odpowiedź (jeśli istnieje) zabierze Cię daleko poza zwykłą weryfikację krzyżową. Podoba mi się, jak to pytanie (i ogólnie ten temat) ładnie wiąże się z brzytwą Ockhama i ogólną koncepcją parsimony, która jest fundamentalna dla nauki. W żadnym wypadku nie jestem ekspertem w tej dziedzinie, ale uważam to pytanie za niezwykle interesujące. Najlepszy tekst, jaki znam na tego rodzaju pytania, to Universal Artificial Intelligence autorstwa Marcusa Huttera (choć nie zadawaj mi żadnych pytań na ten temat, nie przeczytałem większości z nich). Kilka lat temu poszedłem na rozmowę Huttera i byłem pod wielkim wrażeniem.
Masz rację, myśląc, że jest gdzieś argument minimalnej entropii (używany w jakiś sposób do funkcji kary złożoności ). Hutter opowiada się za zastosowaniem złożoności Kołmogorowa zamiast entropii. Również definicja „najlepszego” Huttera (o ile pamiętam) jest (nieformalnie) modelem, który najlepiej przewiduje przyszłość (tj. Najlepiej przewiduje dane, które będą obserwowane w przyszłości). Nie pamiętam, jak formalizuje to pojęcie.c
źródło
Podam krótką intuicyjną odpowiedź (na dość abstrakcyjnym poziomie), dopóki ktoś inny nie zaoferuje lepszej odpowiedzi:
Po pierwsze, należy zauważyć, że złożone funkcje / modele osiągają lepsze dopasowanie (tj. Mają niższe resztki), ponieważ wykorzystują niektóre lokalne cechy (szum myślowy) zestawu danych, które nie są obecne na całym świecie (myśl systematyczne wzorce).
Po drugie, przeprowadzając walidację krzyżową, podzieliliśmy dane na dwa zestawy: zestaw szkoleniowy i zestaw walidacyjny.
Tak więc, gdy przeprowadzamy walidację krzyżową, model złożony może nie przewidywać bardzo dobrze, ponieważ z definicji model złożony wykorzystuje lokalne cechy zestawu szkoleniowego. Jednak lokalne cechy zestawu szkoleniowego mogą być bardzo różne w porównaniu z lokalnymi cechami zestawu walidacyjnego, co powoduje słabą wydajność predykcyjną. Dlatego mamy tendencję do wybierania modelu, który przechwytuje globalne cechy szkolenia i zestawy danych do walidacji.
Podsumowując, krzyżowa walidacja chroni przed nadmiernym dopasowaniem, wybierając model, który przechwytuje globalne wzorce zestawu danych i unikając modeli wykorzystujących pewne lokalne cechy zestawu danych.
źródło
W ogólnym widoku uczenia maszynowego odpowiedź jest dość prosta: chcemy zbudować model, który będzie miał najwyższą dokładność podczas przewidywania nowych danych (niewidocznych podczas szkolenia). Ponieważ nie możemy tego bezpośrednio przetestować (nie mamy danych z przyszłości), przeprowadzamy symulację takiego testu w Monte Carlo - i to jest w zasadzie pomysł pod krzyżową weryfikacją.
Mogą występować pewne problemy dotyczące dokładności (na przykład klient biznesowy może stwierdzić, że przeregulowanie kosztuje 5 EUR za jednostkę i niedopełnienie 0,01 EUR za jednostkę, dlatego lepiej jest zbudować mniej dokładny, ale bardziej niedopracowany model), ale ogólnie to to dość intuicyjny procent prawdziwych odpowiedzi w klasyfikacji i powszechnie stosowana wyjaśniona wariancja w regresji.
źródło
Wiele osób ma doskonałe odpowiedzi, oto moje 0,02 $.
Istnieją dwa sposoby spojrzenia na „najlepszy model” lub „wybór modelu”, mówiąc statystycznie:
1 Wyjaśnienie, które jest tak proste, jak to możliwe, ale nie prostsze (Attrib. Einstein)
2 Prognozowanie to zainteresowanie, podobne do rozwoju inżynierii.
Powszechna (błędna) koncepcja:
Wybór modelu jest równoznaczny z wyborem najlepszego modelu
Dla wyjaśnienia powinniśmy być czujni, aby istniała możliwość istnienia kilku (z grubsza) równie dobrych modeli objaśniających. Prostota pomaga zarówno w komunikowaniu pojęć zawartych w modelu, jak i w tym, co psychologowie nazywają uogólnieniem, umiejętnością „pracy” w scenariuszach bardzo odmiennych od tych, w których model był badany. Jest więc premia za kilka modeli.
Do przewidywania: dobrą analogią (doktora Ripleya) jest wybór między opiniami ekspertów: jeśli masz dostęp do dużego panelu ekspertów, jak wykorzystałbyś ich opinie?
Cross Validation zajmuje się aspektem przewidywania. Aby uzyskać szczegółowe informacje na temat CV, zapoznaj się z prezentacją dr. BD Ripleya Prezentacja dr. Briana D. Ripleya na temat wyboru modelu
Cytat: Należy pamiętać, że wszystko w tej odpowiedzi pochodzi z cytowanej powyżej prezentacji. Jestem wielkim fanem tej prezentacji i podoba mi się. Inne opinie mogą się różnić. Tytuł prezentacji brzmi: „Wybór wśród dużych klas modeli” i został wygłoszony na Sympozjum ku czci 80. urodzin Johna Neldera, Imperial College, 29/30 marca 2004 r. Przez dr Briana D. Ripleya.
źródło
Świetna dyskusja tutaj, ale myślę o walidacji krzyżowej w inny sposób niż dotychczasowe odpowiedzi (mbq i ja myślę, że są na tej samej stronie). Tak więc postawię moje dwa centy na ryzyko zamulenia wód ...
Walidacja krzyżowa to technika statystyczna służąca do oceny zmienności i błędu systematycznego, wynikającego z błędu próbkowania, w zdolności modelu do dopasowania i prognozowania danych. Zatem „najlepszy” byłby model, który zapewnia najniższy błąd uogólnienia, który byłby w jednostkach zmienności i odchylenia. Techniki takie jak Bayesian i Uśrednianie modelu rozruchowego mogą być użyte do aktualizacji modelu w sposób algorytmiczny w oparciu o wyniki wysiłku weryfikacji krzyżowej.
To FAQ zawiera dobre informacje dla lepszego kontekstu tego, co informuje moją opinię.
źródło
Funkcja błędu to błąd Twojego modelu (funkcji) w danych treningowych. Złożoność jest pewną normą (np. Kwadratową normą l2) funkcji, której próbujesz się nauczyć. Minimalizacja terminu złożoności zasadniczo sprzyja płynnym funkcjom, które sprawdzają się nie tylko w danych treningowych, ale także w danych testowych. Jeśli reprezentujesz swoją funkcję za pomocą zestawu współczynników (powiedzmy, jeśli wykonujesz regresję liniową), karanie złożoności przez kwadratową normę doprowadziłoby do małych wartości współczynników w twojej funkcji (karanie innych norm prowadzi do różnych pojęć kontroli złożoności).
źródło
jest równa
źródło