Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

420
Dwie kultury: statystyki a uczenie maszynowe?

W zeszłym roku przeczytałem post na blogu od Brendana O'Connora zatytułowany „Statystyka vs. uczenie maszynowe, walka!” omawiające niektóre różnice między tymi dwoma polami. Andrew Gelman odpowiedział pozytywnie na to : Simon Blomberg: Z pakietu fortuny R.: Prowokując parafrazując „uczenie...

365
Jak zrozumieć wady K-średnich

K-średnich jest szeroko stosowaną metodą analizy skupień. W moim rozumieniu ta metoda NIE wymaga ŻADNYCH założeń, tj. Podaj mi zbiór danych i wcześniej określoną liczbę klastrów, k, i po prostu stosuję ten algorytm, który minimalizuje sumę błędów kwadratu (SSE), wewnątrz klastra do kwadratu...

355
Python jako stół roboczy statystyk

Wiele osób korzysta z głównego narzędzia, takiego jak Excel lub inny arkusz kalkulacyjny, SPSS, Stata lub R do swoich potrzeb statystycznych. Mogą zwrócić się do konkretnego pakietu dla bardzo specjalnych potrzeb, ale wiele rzeczy można zrobić za pomocą prostego arkusza kalkulacyjnego lub ogólnego...

265
Jak znormalizować dane do zakresu 0-1?

Jestem zagubiony w normalizacji, czy ktoś mógłby mnie poprowadzić, proszę. Mam wartości minimalne i maksymalne, powiedzmy odpowiednio -23,89 i 7,54990767. Jeśli otrzymam wartość 5,6878, jak mogę skalować tę wartość w skali od 0 do