Pytania oznaczone «scikit-learn»

17

Dlaczego nie skorzystać z „równań normalnych”, aby znaleźć proste współczynniki najmniejszych kwadratów?

Widziałem tę listę tutaj i nie mogłem uwierzyć, że istnieje tak wiele sposobów rozwiązania najmniejszych kwadratów. „Normalne równania” na Wikipedii wydawał się być dość prosty sposób do α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle...

regression least-squares scikit-learn

17

Jak uzyskać hiper parametry w sprawdzaniu poprawności zagnieżdżonej?

Przeczytałem następujące posty dotyczące sprawdzania poprawności krzyżowania zagnieżdżonego i wciąż nie jestem w 100% pewien, co mam zrobić z wyborem modelu za pomocą sprawdzania poprawności krzyżowania zagnieżdżonego: Zagnieżdżone sprawdzanie poprawności wyboru modelu Wybór modelu i walidacja...

cross-validation scikit-learn hyperparameter

16

Różnica między statsmodel OLS a regresją liniową scikit

Mam pytanie dotyczące dwóch różnych metod z różnych bibliotek, które wydają się wykonywać tę samą pracę. Próbuję stworzyć model regresji liniowej. Oto kod, który używam biblioteki statsmodel z OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3,...

regression python scikit-learn statsmodels

16

Zmienne współliniowe w szkoleniu Multlass LDA

Trenuję wieloklasowy klasyfikator LDA z 8 klasami danych. Podczas treningu otrzymuję ostrzeżenie: „ Zmienne są współliniowe ” Dostaję dokładność szkolenia ponad 90% . Korzystam z biblioteki scikits-learn w Pythonie do trenowania i testowania danych Multi-class. Dostaję też przyzwoitą dokładność...

machine-learning classification python scikit-learn discriminant-analysis

16

Różnica pomiędzy wybór funkcji oparty na „F” i regresji na podstawie

Czy porównywanie cech przy użyciu F-regressiontego samego, co korelowanie elementów z etykietą indywidualnie i obserwowanie wartości ?R2)R2R^2 Często widziałem, jak moi koledzy używają F regressiondo wyboru funkcji w procesie uczenia maszynowego z

feature-selection python scikit-learn r-squared f-test

16

Scikit poprawny sposób kalibracji klasyfikatorów za pomocą CalibratedClassifierCV

Scikit ma CalibratedClassifierCV , co pozwala nam skalibrować nasze modele na konkretnej parze X, y. Stwierdza to również jasnodata for fitting the classifier and for calibrating it must be disjoint. Jeśli muszą być rozłączne, czy uzasadnione jest przeszkolenie klasyfikatora w następujących...

cross-validation scikit-learn validation train calibration

16

Najszybsza implementacja SVM

Bardziej ogólne pytanie. Korzystam z SVM rbf do modelowania predykcyjnego. Myślę, że mój obecny program zdecydowanie potrzebuje przyspieszenia. Używam scikit learning z prostym do dokładnego wyszukiwania siatki + sprawdzania poprawności. Każdy przebieg SVM zajmuje około minuty, ale mimo wszystkich...

machine-learning svm predictive-models scikit-learn kernel-trick

15

Dlaczego funkcja bootstrap scikit-learn ponownie próbkuje zestaw testowy?

Kiedy używałem bootstrapowania do oceny modelu, zawsze myślałem, że próbki z torebki były bezpośrednio używane jako zestaw testowy. Jednak wydaje się, że nie jest tak w przypadku przestarzałego podejścia scikit-learnBootstrap , które wydaje się budować zestaw testowy na podstawie rysowania z...

cross-validation bootstrap random-forest scikit-learn bagging

15

Metody obejścia problemu braku danych w uczeniu maszynowym

Praktycznie każda baza danych, w której chcemy przewidywać za pomocą algorytmów uczenia maszynowego, znajdzie brakujące wartości niektórych cech. Istnieje kilka podejść do rozwiązania tego problemu, aby wykluczyć linie, w których brakuje wartości, dopóki nie wypełnią się średnimi wartościami...

machine-learning scikit-learn data-imputation

15

Losowy las jest przepełniony

Próbuję użyć losowej regresji leśnej w scikits-learn. Problem polega na tym, że otrzymuję naprawdę wysoki błąd testu: train MSE, 4.64, test MSE: 252.25. Tak wyglądają moje dane: (niebieski: dane rzeczywiste, zielony: przewidywane): Używam 90% na szkolenie i 10% na test. Oto kod, którego używam...

regression random-forest scikit-learn

15

Regresja logistyczna: Scikit Learn vs glmnet

Próbuję powielić wyniki z sklearnbiblioteki regresji logistycznej przy użyciu glmnetpakietu w języku R. Z dokumentacjisklearn regresji logistycznej próbuje zminimalizować funkcję kosztu w ramach kary l2 minw , c12)wT.w + C∑i = 1N.log( exp( - yja( XT.jaw + c ) ) + 1

r logistic python scikit-learn glmnet

14

Zastosowanie zagnieżdżonej weryfikacji krzyżowej

Strona Scikit Learn na temat wyboru modelu wspomina o zagnieżdżonej weryfikacji krzyżowej: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Dwie pętle wzajemnej weryfikacji są...

machine-learning cross-validation scikit-learn

13

Czy próg decyzyjny jest hiperparametrem w regresji logistycznej?

Przewidywane klasy z (binarnej) regresji logistycznej są określane przy użyciu progu prawdopodobieństwa członkostwa w klasie generowanego przez model. Jak rozumiem, domyślnie używa się zwykle 0,5. Ale zmiana progu zmieni przewidywane klasyfikacje. Czy to oznacza, że próg jest hiperparametrem?...

machine-learning logistic scikit-learn hyperparameter

13

Wykorzystanie BIC do oszacowania liczby k w KMEANS

Obecnie próbuję obliczyć BIC dla mojego zestawu danych zabawek (ofc iris (:). Chcę odtworzyć wyniki, jak pokazano tutaj (ryc. 5). Ten papier jest również moim źródłem dla formuł BIC. Mam z tym 2 problemy: Notacja: ninin_i I = liczba elementów w klastrzeiii CiCiC_i i = współrzędne środkowe...

python k-means scikit-learn bic

13

Jak naprawić brak konwergencji w LogisticRegressionCV

Korzystam ze scikit-learn, aby przeprowadzić regresję logistyczną z weryfikacją krzyżową na zestawie danych (około 14 parametrów z> 7000 znormalizowanych obserwacji). Mam również docelowy klasyfikator, który ma wartość 1 lub 0. Problem, jaki mam, polega na tym, że niezależnie od używanego...

logistic cross-validation scikit-learn

12

Różnica między implementacjami PCA i TruncatedSVD w scikit-learn

Rozumiem związek między analizą głównych składników a rozkładem wartości osobliwych na poziomie algebraicznym / dokładnym. Moje pytanie dotyczy implementacji scikit-learn . Dokumentacja mówi: „ [TruncatedSVD] jest bardzo podobny do PCA, ale działa bezpośrednio na przykładowe wektory, zamiast na...

pca scikit-learn svd scipy

12

Czy można oceniać GLM w Python / scikit-learn przy użyciu rozkładów Poissona, Gammy lub Tweedie jako rodziny dla rozkładu błędów?

Próbuję nauczyć się języka Python i Sklearn, ale do mojej pracy muszę uruchomić regresje, które wykorzystują rozkłady błędów z rodzin Poissona, Gammy, a zwłaszcza Tweediego. Nie widzę nic w dokumentacji na ich temat, ale są one w kilku częściach dystrybucji R, więc zastanawiałem się, czy ktoś...

generalized-linear-model python scikit-learn gradient-descent tweedie-distribution

12

Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace =...

r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

12

Metoda Nystroem dla aproksymacji jądra

Czytałem o metodzie Nyström do aproksymacji jądra niskiej rangi. Ta metoda jest zaimplementowana w scikit-learn [1] jako metoda rzutowania próbek danych na przybliżenie niskiego rzędu mapowania cech jądra. Zgodnie z moją najlepszą wiedzą, biorąc pod uwagę zestaw szkoleniowy i funkcję jądra,...

scikit-learn dimensionality-reduction kernel-trick nonlinear

12

Jaka jest różnica między wynikiem

Czytałam o metryki regresji w pytona scikit-learn obsługi i choć każdy z nich ma swoją własną formułę, nie mogę powiedzieć intuicyjnie, jaka jest różnica między R2R2)R^2 i wynik wariancji, a zatem kiedy używać jednego lub inny ocenić mój

regression variance scikit-learn r-squared model-evaluation