W pewnym sensie rozumiem, co oznacza „nadmierne dopasowanie”, ale potrzebuję pomocy, aby znaleźć prawdziwy przykład, który dotyczy nadmiernego dopasowania.
Błąd modelowania (zwłaszcza błąd próbkowania) zamiast powtarzalnych i informacyjnych relacji między zmiennymi poprawia statystyki dopasowania modelu, ale zmniejsza oszczędność i pogarsza trafność wyjaśniającą i predykcyjną.
W pewnym sensie rozumiem, co oznacza „nadmierne dopasowanie”, ale potrzebuję pomocy, aby znaleźć prawdziwy przykład, który dotyczy nadmiernego dopasowania.
Mam wykształcenie informatyczne, ale staram się uczyć danych, rozwiązując problemy w Internecie. Pracowałem nad tym problemem przez ostatnie kilka tygodni (około 900 wierszy i 10 funkcji). Początkowo korzystałem z regresji logistycznej, ale teraz przerzuciłem się na losowe lasy. Kiedy uruchamiam...
Idea adaptacyjnej analizy danych polega na tym, że zmieniasz swój plan analizowania danych, gdy dowiadujesz się więcej na ten temat. W przypadku eksploracyjnej analizy danych (EDA) jest to ogólnie dobry pomysł (często szukasz nieprzewidzianych wzorców w danych), ale w przypadku badania...
Czy można zastąpić model regresji logistycznej? Widziałem wideo z informacją, że jeśli mój obszar pod krzywą ROC jest większy niż 95%, to jest bardzo prawdopodobne, że będzie on nadmiernie dopasowany, ale czy można zastąpić model regresji
Uczę prostej sieci neuronowej na zbiorze danych CIFAR10. Po pewnym czasie utrata walidacji zaczęła rosnąć, a dokładność walidacji również rośnie. Utrata i dokładność testu stale się poprawiają. Jak to jest możliwe? Wydaje się, że w przypadku wzrostu utraty walidacji dokładność powinna się...
Ukończyłem kurs uczenia maszynowego Andrew Nga około rok temu, a teraz piszę moje badanie matematyki w szkole średniej na temat działania regresji logistycznej i technik optymalizacji wydajności. Jedną z tych technik jest oczywiście regularyzacja. Celem regularyzacji jest zapobieganie nadmiernemu...
Załóżmy, że model ma 100% dokładności danych treningowych, ale 70% dokładności danych testowych. Czy następujący argument dotyczy tego modelu? Oczywiste jest, że jest to model przebudowany. Dokładność testu można zwiększyć, zmniejszając nadmierne dopasowanie. Ale ten model może nadal być...
Czy to prawda, że metody bayesowskie nie pasują do siebie? (Widziałem kilka artykułów i samouczków przedstawiających to twierdzenie) Na przykład, jeśli zastosujemy Proces Gaussa do MNIST (odręczna klasyfikacja cyfr), ale pokażemy tylko jedną próbkę, czy powróci on do wcześniejszego rozkładu dla...
Załóżmy, że mam zestaw danych do nadzorowanego zadania klasyfikacji statystycznej, np. Za pomocą klasyfikatora Bayesa. Ten zestaw danych składa się z 20 elementów i chcę sprowadzić go do 2 elementów za pomocą technik redukcji wymiarów, takich jak analiza głównych składników (PCA) i / lub liniowa...
Czytałem raport o zwycięskim rozwiązaniu konkursu Kaggle ( klasyfikacja złośliwego oprogramowania ). Raport można znaleźć w tym poście na forum . Problemem był problem z klasyfikacją (dziewięć klas, metryką była strata logarytmiczna) ze 10000 elementami w zestawie pociągów, 10000 elementów w...
Moja konfiguracja jest następująca: Postępuję zgodnie z wytycznymi w „Applied Predictive Modeling”. W związku z tym odfiltrowałem skorelowane funkcje i kończę na następujących: 4900 punktów danych w zestawie treningowym i 1600 punktów danych w zestawie testowym. Mam 26 cech, a celem jest zmienna...
Przeprowadziłem pewne badania na temat niedopasowania i niedopasowania i zrozumiałem, czym dokładnie są, ale nie mogę znaleźć powodów. Jakie są główne powody niedopasowania i niedopasowania? Dlaczego napotykamy te dwa problemy podczas szkolenia
Regularyzacja w regresji (liniowa, logistyczna ...) jest najpopularniejszym sposobem ograniczenia nadmiernego dopasowania. Kiedy celem jest dokładność prognoz (nie wyjaśniając), czy istnieją jakieś dobre alternatywy dla regularyzacji, szczególnie odpowiednie dla dużych zbiorów danych (mi /...
Szybkość uczenia się parametr ( ) gradientu Zwiększenie kurczy wkładu każdego nowego modelu podstawowego -typically zawiera drzewo płytka, że dodaje się w serii. Wykazano, że radykalnie zwiększa dokładność zestawu testowego, co jest zrozumiałe, ponieważ przy mniejszych krokach minimum funkcji...
Czy istnieje matematyczna lub algorytmiczna definicja nadmiernego dopasowania? Często podawanymi definicjami są klasyczny dwuwymiarowy wykres punktów z linią przechodzącą przez każdy punkt, a krzywa utraty walidacji nagle rośnie. Ale czy istnieje matematycznie rygorystyczna...
Jeśli mam dane i prowadzę klasyfikację (powiedzmy losowy las na tych danych) z walidacją krzyżową (powiedzmy 5-krotnie), czy mogę dojść do wniosku, że w mojej metodzie nie ma nadmiernego
Rozważmy problem związany z klasyfikacją zestawu danych MNIST. Według strony MNIST Yanna LeCuna „Ciresan i in.” uzyskał poziom błędu 0,23% w zestawie testowym MNIST przy użyciu sieci neuronowej Convolutional. Oznaczmy zestaw treningowy MNIST jako , zestaw testowy MNIST jako , ostateczną hipotezę,...
Obecnie dopasowuję losowe lasy pod kątem problemu z klasyfikacją za pomocą randomForestpakietu w R i nie jestem pewien, jak zgłosić błąd szkolenia dla tych modeli. Mój błąd szkolenia jest bliski 0%, kiedy go obliczam, używając prognoz, które otrzymuję za pomocą polecenia: predict(model,...
Chociaż wyników prywatnego zestawu testowego nie można wykorzystać do dalszego udoskonalenia modelu, to czy wybór modelu z ogromnej liczby modeli przeprowadzanych na podstawie wyników prywatnego zestawu testowego nie jest możliwy? Czy nie sprawiłbyś, że dzięki temu samemu procesowi nadmierne...
Powiedzmy, że mamy model mod <- Y ~ X*Condition + (X*Condition|subject) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects...