Pytania oznaczone «scikit-learn»

17
Dlaczego nie skorzystać z „równań normalnych”, aby znaleźć proste współczynniki najmniejszych kwadratów?

Widziałem tę listę tutaj i nie mogłem uwierzyć, że istnieje tak wiele sposobów rozwiązania najmniejszych kwadratów. „Normalne równania” na Wikipedii wydawał się być dość prosty sposób do α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle...

15
Losowy las jest przepełniony

Próbuję użyć losowej regresji leśnej w scikits-learn. Problem polega na tym, że otrzymuję naprawdę wysoki błąd testu: train MSE, 4.64, test MSE: 252.25. Tak wyglądają moje dane: (niebieski: dane rzeczywiste, zielony: przewidywane): Używam 90% na szkolenie i 10% na test. Oto kod, którego używam...

13
Wykorzystanie BIC do oszacowania liczby k w KMEANS

Obecnie próbuję obliczyć BIC dla mojego zestawu danych zabawek (ofc iris (:). Chcę odtworzyć wyniki, jak pokazano tutaj (ryc. 5). Ten papier jest również moim źródłem dla formuł BIC. Mam z tym 2 problemy: Notacja: ninin_i I = liczba elementów w klastrzeiii CiCiC_i i = współrzędne środkowe...

12
Czy można oceniać GLM w Python / scikit-learn przy użyciu rozkładów Poissona, Gammy lub Tweedie jako rodziny dla rozkładu błędów?

Próbuję nauczyć się języka Python i Sklearn, ale do mojej pracy muszę uruchomić regresje, które wykorzystują rozkłady błędów z rodzin Poissona, Gammy, a zwłaszcza Tweediego. Nie widzę nic w dokumentacji na ich temat, ale są one w kilku częściach dystrybucji R, więc zastanawiałem się, czy ktoś...

12
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace =...