Statystyki i duże zbiory danych

54
Jakie jest intuicyjne wyjaśnienie, w jaki sposób PCA zmienia się z problemu geometrycznego (z odległościami) w problem algebry liniowej (z wektorami własnymi)?

Dużo czytałem o PCA, w tym różne tutoriale i pytania (takie jak ten , ten , ten i ten ). Geometryczny problem, który PCA próbuje zoptymalizować, jest dla mnie jasny: PCA próbuje znaleźć pierwszy główny składnik, minimalizując błąd rekonstrukcji (projekcji), który jednocześnie maksymalizuje...

54
W jaki sposób R i Python uzupełniają się w informatyce?

W wielu samouczkach lub instrukcjach narracja wydaje się sugerować, że R i Python współistnieją jako uzupełniające się elementy procesu analizy. Jednak dla mojego niedoświadczonego oka wydaje się, że oba języki robią to samo. Moje pytanie brzmi więc, czy istnieją naprawdę wyspecjalizowane nisze...

53
Wydajna regresja liniowa online

Analizuję niektóre dane, w których chciałbym przeprowadzić zwykłą regresję liniową, jednak nie jest to możliwe, ponieważ mam do czynienia z ustawieniem on-line z ciągłym strumieniem danych wejściowych (które szybko stają się zbyt duże dla pamięci) i potrzebują zaktualizować oszacowania parametrów...

53
Uczenie maszynowe przy użyciu Pythona

Rozważam użycie bibliotek Python do przeprowadzania eksperymentów z uczeniem maszynowym. Do tej pory polegałem na WEKA, ale ogólnie byłem dość niezadowolony. Wynika to przede wszystkim z tego, że uważam, że WEKA nie jest tak dobrze wspierana (bardzo niewiele przykładów, dokumentacja jest rzadka, a...

52
Grupowanie za pomocą macierzy odległości

Mam (symetryczną) macierz, Mktóra reprezentuje odległość między każdą parą węzłów. Na przykład, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 140 140 140 D 20 20 20 0 60 80 80 80 120 140 140 140 E 40 60 60 60 0 20 20 20...