Pytania oznaczone «scikit-learn»

Scikit-learn to moduł Pythona składający się z prostego i wydajnego narzędzia do uczenia maszynowego, eksploracji danych i analizy danych. Jest zbudowany na NumPy, SciPy i matplotlib. Jest rozpowszechniany na licencji 3-klauzulowej BSD.

29
Dlaczego xgboost jest o wiele szybszy niż sklearn GradientBoostingClassifier?

Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą...

22
Obliczanie dywergencji KL w Pythonie

Jestem raczej nowy i nie mogę powiedzieć, że mam pełne zrozumienie teoretycznych pojęć. Próbuję obliczyć dywergencję KL między kilkoma listami punktów w Pythonie. Korzystam z http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html, aby spróbować to zrobić. Problem,...

20
StandardScaler przed i po podziale danych

Kiedy czytałem o używaniu StandardScaler, większość zaleceń mówiła, że ​​powinieneś użyć StandardScaler przed podzieleniem danych na pociąg / test, ale kiedy sprawdzałem niektóre kody opublikowane online (za pomocą sklearn), były dwa główne zastosowania. 1- Korzystanie StandardScalerze wszystkich...

17
powiększ mapę cieplną dna morskiego

Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez...

17
Algorytmy klastrowania tekstu

Mam problem z grupowaniem ogromnej liczby zdań w grupy według ich znaczenia. Jest to podobne do problemu, gdy masz wiele zdań i chcesz je pogrupować według ich znaczenia. Jakie algorytmy są zalecane? Nie wiem z góry liczby klastrów (a ponieważ nadchodzi więcej danych, klastry również mogą się...