W pewnym sensie rozumiem, co oznacza „nadmierne dopasowanie”, ale potrzebuję pomocy, aby znaleźć prawdziwy przykład, który dotyczy nadmiernego dopasowania.
Proces dopasowywania modelu statystycznego do określonego zbioru danych. Przeważnie wykonywane na komputerze i przy użyciu różnych metod numerycznych, takich jak optymalizacja, całkowanie numeryczne lub symulacja.
W pewnym sensie rozumiem, co oznacza „nadmierne dopasowanie”, ale potrzebuję pomocy, aby znaleźć prawdziwy przykład, który dotyczy nadmiernego dopasowania.
Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29,...
Mam wykształcenie informatyczne, ale staram się uczyć danych, rozwiązując problemy w Internecie. Pracowałem nad tym problemem przez ostatnie kilka tygodni (około 900 wierszy i 10 funkcji). Początkowo korzystałem z regresji logistycznej, ale teraz przerzuciłem się na losowe lasy. Kiedy uruchamiam...
Mam zestaw danych, które nie są uporządkowane w żaden szczególny sposób, ale kiedy są wyraźnie przedstawione, mają dwa wyraźne trendy. Prosta regresja liniowa nie byłaby w tym przypadku wystarczająca ze względu na wyraźne rozróżnienie między dwiema seriami. Czy istnieje prosty sposób na uzyskanie...
Idea adaptacyjnej analizy danych polega na tym, że zmieniasz swój plan analizowania danych, gdy dowiadujesz się więcej na ten temat. W przypadku eksploracyjnej analizy danych (EDA) jest to ogólnie dobry pomysł (często szukasz nieprzewidzianych wzorców w danych), ale w przypadku badania...
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo...
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...
Uczę prostej sieci neuronowej na zbiorze danych CIFAR10. Po pewnym czasie utrata walidacji zaczęła rosnąć, a dokładność walidacji również rośnie. Utrata i dokładność testu stale się poprawiają. Jak to jest możliwe? Wydaje się, że w przypadku wzrostu utraty walidacji dokładność powinna się...
Czy można zastąpić model regresji logistycznej? Widziałem wideo z informacją, że jeśli mój obszar pod krzywą ROC jest większy niż 95%, to jest bardzo prawdopodobne, że będzie on nadmiernie dopasowany, ale czy można zastąpić model regresji
Ukończyłem kurs uczenia maszynowego Andrew Nga około rok temu, a teraz piszę moje badanie matematyki w szkole średniej na temat działania regresji logistycznej i technik optymalizacji wydajności. Jedną z tych technik jest oczywiście regularyzacja. Celem regularyzacji jest zapobieganie nadmiernemu...
Chociaż czytam ten post, nadal nie mam pojęcia, jak zastosować to do moich danych i mam nadzieję, że ktoś może mi pomóc. Mam następujące dane: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292,...
Czy to prawda, że metody bayesowskie nie pasują do siebie? (Widziałem kilka artykułów i samouczków przedstawiających to twierdzenie) Na przykład, jeśli zastosujemy Proces Gaussa do MNIST (odręczna klasyfikacja cyfr), ale pokażemy tylko jedną próbkę, czy powróci on do wcześniejszego rozkładu dla...
Załóżmy, że mam zestaw danych do nadzorowanego zadania klasyfikacji statystycznej, np. Za pomocą klasyfikatora Bayesa. Ten zestaw danych składa się z 20 elementów i chcę sprowadzić go do 2 elementów za pomocą technik redukcji wymiarów, takich jak analiza głównych składników (PCA) i / lub liniowa...
Załóżmy, że model ma 100% dokładności danych treningowych, ale 70% dokładności danych testowych. Czy następujący argument dotyczy tego modelu? Oczywiste jest, że jest to model przebudowany. Dokładność testu można zwiększyć, zmniejszając nadmierne dopasowanie. Ale ten model może nadal być...
Po pierwsze, nie jestem statystykiem. Jednak robiłem analizę sieci statystycznej dla mojego doktoratu. W ramach analizy sieci przedstawiłem komplementarną funkcję skumulowanego rozkładu (CCDF) stopni sieciowych. Odkryłem, że w przeciwieństwie do konwencjonalnych dystrybucji sieciowych (np. WWW),...
Czytałem raport o zwycięskim rozwiązaniu konkursu Kaggle ( klasyfikacja złośliwego oprogramowania ). Raport można znaleźć w tym poście na forum . Problemem był problem z klasyfikacją (dziewięć klas, metryką była strata logarytmiczna) ze 10000 elementami w zestawie pociągów, 10000 elementów w...
Mam coś, co naiwnie uważałem za dość prosty problem, który polega na wykrywaniu wartości odstających dla wielu różnych zestawów danych zliczania. W szczególności chcę ustalić, czy jedna lub więcej wartości w serii danych zliczania jest wyższa lub niższa niż oczekiwano w stosunku do reszty zliczeń w...
Poniższy fragment pochodzi z wywiadu przeprowadzonego przez Schwager's Hedge Fund Market Wizzards (maj 2012 r.), Jaffraya Woodriffa, zarządzającego funduszem hedgingowym, który odnosi sukcesy: Na pytanie: „Jakie są najgorsze błędy popełniane podczas eksploracji danych?”: Wiele osób uważa, że...
Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy...
EDYCJA: Ponieważ to pytanie zostało zawyżone, podsumowanie: znalezienie różnych znaczących i możliwych do interpretacji zestawów danych z tymi samymi mieszanymi statystykami (średnia, mediana, średnica i związane z nimi dyspersje oraz regresja). Kwartet Anscombe (patrz Cel wizualizacji danych...