Pytania oznaczone «large-data»

10

K-oznacza: ile iteracji w sytuacjach praktycznych?

Nie mam doświadczenia w branży eksploracji danych ani dużych zbiorów danych, więc chciałbym usłyszeć, jak dzielisz się doświadczeniami. Czy ludzie faktycznie używają k-średnich, PAM, CLARA itp. Na naprawdę dużym zbiorze danych? Czy po prostu losowo wybierają z niego próbkę? Jeśli po prostu pobiorą...

10

Radzenie sobie z bardzo dużymi zestawami danych szeregów czasowych

Mam dostęp do bardzo dużego zestawu danych. Dane pochodzą z nagrań MEG osób słuchających fragmentów muzycznych z jednego z czterech gatunków. Dane są następujące: 6 tematów 3 eksperymentalne powtórzenia (epoki) 120 prób na epokę 8 sekund danych na próbę przy 500 Hz (= 4000 próbek) z 275 kanałów...

machine-learning feature-selection large-data feature-construction

9

Które algorytmy uczenia maszynowego można skalować za pomocą funkcji zmniejszania / zmniejszania mapy

Skalowalne algorytmy uczenia maszynowego wydają się być gwarem w dzisiejszych czasach. Każda firma obsługuje wyłącznie duże zbiory danych . Czy istnieje podręcznik omawiający, jakie algorytmy uczenia maszynowego można skalować za pomocą architektur równoległych, takich jak Map-Reduce, a które nie...

machine-learning large-data

9

Parametryczne, półparametryczne i nieparametryczne ładowanie początkowe dla modeli mieszanych

Z tego artykułu pochodzą następujące przeszczepy . Jestem nowicjuszem w bootstrapie i próbuję zaimplementować parametryczne, semiparametryczne i nieparametryczne bootstrapowanie dla liniowego modelu mieszanego z R bootpakietem. Kod R. Oto mój

r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

9

Skalowalna redukcja wymiarów

Biorąc pod uwagę stałą liczbę funkcji, Barnes-Hut t-SNE ma złożoność , losowe projekcje i PCA mają złożoność co czyni je „przystępnymi” dla bardzo dużych zestawów danych.O(nlogn)O(nlog⁡n)O(n\log n)O(n)O(n)O(n) Z drugiej strony metody oparte na skalowaniu wielowymiarowym mają złożoność...

pca dimensionality-reduction large-data multidimensional-scaling tsne

9

Klastry zajmujące mało miejsca

Większość algorytmów grupowania, jakie widziałem, zaczyna się od tworzenia odległości między poszczególnymi punktami, co staje się problematyczne w przypadku większych zestawów danych. Czy jest taki, który tego nie robi? Czy może jest to podejście częściowe / przybliżone / naprzemienne? Który...

clustering algorithms large-data

9

Jak obliczyć miarę dokładności na podstawie RMSE? Czy mój duży zestaw danych jest zwykle dystrybuowany?

Mam kilka zestawów danych rzędu tysięcy punktów. Wartości w każdym zestawie danych to X, Y, Z odnoszące się do współrzędnej w przestrzeni. Wartość Z reprezentuje różnicę wysokości w parze współrzędnych (x, y). Zazwyczaj w moim polu GIS błąd wysokości jest odniesiony w RMSE poprzez odjęcie punktu...

normal-distribution large-data

9

Jak szybko wybrać ważne zmienne z bardzo dużego zestawu danych?

Mam zestaw danych z około 2000 zmiennymi binarnymi / 200 000 wierszy i próbuję przewidzieć pojedynczą zmienną zależną binarnie. Moim głównym celem na tym etapie nie jest uzyskanie dokładności prognoz, ale raczej określenie, które z tych zmiennych są ważnymi predyktorami. Chciałbym zmniejszyć liczbę...

machine-learning data-mining large-data

8

Czy mogę podpróbkować duży zestaw danych przy każdej iteracji MCMC?

Problem: Chcę wykonać próbkowanie Gibbsa, aby wywnioskować trochę z tyłu na podstawie dużego zestawu danych. Niestety mój model nie jest bardzo prosty, dlatego próbkowanie jest zbyt wolne. Rozważałbym podejścia wariacyjne lub równoległe, ale zanim przejdę tak daleko ... Pytanie: Chciałbym...

sampling bootstrap mcmc large-data gibbs