Pytania oznaczone «data-cleaning»

Czyszczenie danych jest wstępnym krokiem do analizy statystycznej, w której zestaw danych jest edytowany w celu skorygowania błędów i nadania mu postaci odpowiedniej do przetwarzania przez oprogramowanie statystyczne.

34
Zorganizowane procesy czyszczenia danych

Z mojego ograniczonego wglądu w naukę danych przy użyciu R zdałem sobie sprawę, że czyszczenie złych danych jest bardzo ważną częścią przygotowywania danych do analizy. Czy są jakieś najlepsze praktyki lub procesy czyszczenia danych przed ich przetwarzaniem? Jeśli tak, to czy istnieją jakieś...

29
Dlaczego xgboost jest o wiele szybszy niż sklearn GradientBoostingClassifier?

Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą...

14
Jak wykonać dopasowanie rozmyte adresów pocztowych?

Chciałbym wiedzieć, jak dopasować adresy pocztowe, gdy ich format różni się lub gdy jeden z nich jest źle zapisany. Do tej pory znalazłem różne rozwiązania, ale myślę, że są one dość stare i niezbyt wydajne. Jestem pewien, że istnieją lepsze metody, więc jeśli masz dla mnie referencje, jestem...

11
Czy są jakieś dobre gotowe modele językowe dla Pythona?

Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well...

10
Najlepsze języki do obliczeń naukowych [zamknięte]

Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w...