Statystyki i duże zbiory danych

30
Jakie teorie powinien znać każdy statystyk?

Myślę o tym z bardzo podstawowej, minimalnej perspektywy. Jakie są najważniejsze teorie, które statystycy branżowi (a nie akademiccy) powinni znać, rozumieć i wykorzystywać na bieżąco? Wielkim, jakie przychodzi na myśl, jest prawo wielkich liczb . Jakie są najbardziej istotne dla zastosowania...

30
Jak korzystać z SVD w filtrowaniu grupowym?

Jestem trochę zdezorientowany tym, w jaki sposób SVD jest używane do wspólnego filtrowania. Załóżmy, że mam wykres społecznościowy i buduję macierz przylegania z krawędzi, a następnie biorę SVD (zapomnijmy o regularyzacji, wskaźnikach uczenia się, optymalizacjach sparityzacji itp.), W jaki sposób...

30
Strategie uczenia rozkładu próbkowania

Wersja tl; dr Jakie skuteczne strategie stosujesz, aby nauczyć rozkład próbkowania (na przykład średniej próbki) na wstępnym poziomie licencjackim? Tło We wrześniu będę prowadził kurs wprowadzający dla studentów drugiego roku nauk społecznych (głównie nauk politycznych i socjologii) z...

30
Wykres liniowy ma zbyt wiele linii, czy jest lepsze rozwiązanie?

Próbuję przedstawić liczbę działań użytkowników (w tym przypadku „polubień”) w czasie. Mam więc „liczbę działań” jako moją oś y, moją oś x to czas (tygodnie), a każda linia reprezentuje jednego użytkownika. Mój problem polega na tym, że chcę spojrzeć na te dane dla zestawu około 100 użytkowników....

30
Jak przeprowadzić redukcję wymiarowości za pomocą PCA w R.

Mam duży zestaw danych i chcę przeprowadzić redukcję wymiarów. Teraz wszędzie czytam, że mogę do tego użyć PCA. Jednak nadal nie wydaje mi się, co robić po obliczeniu / wykonaniu PCA. W R można to łatwo zrobić za pomocą polecenia princomp. Ale co zrobić po obliczeniu PCA? Jeśli zdecydowałem, że...