Pytania oznaczone «large-data»

„Duże dane” oznaczają sytuacje, w których liczba obserwacji (punktów danych) jest tak duża, że ​​wymaga zmian w sposobie myślenia analityka danych lub przeprowadzania analizy. (Nie mylić z „wysoką wymiarowością”).

191
Jak przekształcić dane nieujemne, w tym zera?

Jeśli mam bardzo wypaczone pozytywne dane, często biorę dzienniki. Ale co mam zrobić z mocno wypaczonymi nieujemnymi danymi, które zawierają zera? Widziałem dwie zastosowane transformacje: log( x + 1 )log⁡(x+1)\log(x+1) który ma ciekawą funkcję, która 0 odwzorowuje na 0. log( x + c...

56
Wyzwania dla przemysłu i Kaggle. Czy zbieranie większej liczby obserwacji i dostęp do większej liczby zmiennych jest ważniejsze niż fantazyjne modelowanie?

Mam nadzieję, że tytuł jest oczywisty. W Kaggle większość zwycięzców używa układania w stosy z czasami setkami modeli podstawowych, aby wycisnąć kilka dodatkowych% MSE, dokładność ... Ogólnie rzecz biorąc, z twojego doświadczenia wynika, jak ważne jest wymyślne modelowanie, takie jak układanie w...

44
Czym dokładnie jest Big Data?

Kilkakrotnie zadawano mi pytanie: Co to jest Big-Data? Zarówno przez studentów, jak i moich krewnych, którzy podnoszą szum wokół statystyk i ML. Znalazłem ten CV . I czuję, że zgadzam się z jedyną tam odpowiedzią. Strona Wikipedii również ma na ten temat kilka uwag, ale nie jestem pewien,...

21
Jak rzutować nowy wektor na przestrzeń PCA?

Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy...

18
Nieszablonowe opcje analizy danych

Używam SAS profesjonalnie od prawie 5 lat. Mam go zainstalowanego na swoim laptopie i często muszę analizować zestawy danych z 1000-2 000 zmiennych i setkami tysięcy obserwacji. Szukałem alternatyw dla SAS, które pozwalają mi przeprowadzać analizy zbiorów danych o podobnych rozmiarach. Jestem...