Pytania oznaczone «data-cleaning»

16
Czyścić dane o niespójnym formacie w R?

Często mam do czynienia z niechlujnymi danymi ankiet, które wymagają dużo czyszczenia, zanim będzie można wykonać statystyki. Robiłem to „ręcznie” w programie Excel, czasami używając formuł Excela, a czasem sprawdzając wpisy jeden po drugim. Zacząłem robić coraz więcej tych zadań, pisząc skrypty do...

13
Najnowocześniejsza deduplikacja

Jakie są najnowocześniejsze metody deduplikacji rekordów? Deduplikacja jest również czasami nazywana: łączenie rekordów, rozpoznawanie jednostek, rozpoznawanie tożsamości, scalanie / czyszczenie. Wiem na przykład o CBLOCK [1]. Byłbym wdzięczny, gdyby odpowiedzi zawierały również odniesienia do...

10
Automatyczne czyszczenie danych

Częstym problemem jest brak dobrej jakości danych ML: błędy w wartościach funkcji, błędne klasyfikacje instancji itp. Jednym ze sposobów rozwiązania tego problemu jest ręczne przejrzenie danych i sprawdzenie, ale czy istnieją inne techniki? (Założę się, że są!) Które są lepsze i...