Statystyki i duże zbiory danych

24
Określ różne klastry danych 1d z bazy danych

Mam tabelę bazy danych przesyłania danych między różnymi węzłami. To ogromna baza danych (z prawie 40 milionami transferów). Jednym z atrybutów jest liczba transferów bajtów (nbajtów) w zakresie od 0 bajtów do 2 tera bajtów. Chciałbym zgrupować nbytes w taki sposób, aby dane k klastrów zawierały...

24
Jak duży jest zestaw treningowy?

Czy istnieje wspólna metoda określania liczby próbek szkoleniowych wymaganych do wyszkolenia klasyfikatora (w tym przypadku LDA) w celu uzyskania minimalnej dokładności uogólnienia progu? Pytam, ponieważ chciałbym zminimalizować czas kalibracji zwykle wymagany w interfejsie...

24
Moduł Pythona do analizy punktu zmiany

Szukam modułu Python, który wykonuje analizę zmiany punktu na szeregu czasowym. Istnieje wiele różnych algorytmów i chciałbym zbadać skuteczność niektórych z nich bez konieczności ręcznego rzucania każdym z algorytmów. Idealnie chciałbym, aby niektóre moduły, takie jak bcp (Bayesian Change Point)...

24
Mapa funkcji dla jądra Gaussa

W SVM jądro Gaussa jest zdefiniowane jako: gdzie x, y \ in \ mathbb {R ^ n} . Nie znam jednoznacznego równania \ phi . Chcę wiedzieć.K(x,y)=exp(−∥x−y∥222σ2)=ϕ(x)Tϕ(y)K(x,y)=exp⁡(−‖x−y‖222σ2)=ϕ(x)Tϕ(y)K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)x,y∈Rnx,y∈Rnx, y\in...

24
Jak dokładnie rzadkie PCA jest lepsze od PCA?

Dowiedziałem się o PCA kilka wykładów temu na zajęciach i kopiąc więcej o tej fascynującej koncepcji, poznałem rzadkie PCA. Chciałem zapytać, jeśli się nie mylę, to jest to rzadkie PCA: w PCA, jeśli masz punktów danych ze zmiennymi , możesz zastosować każdy punkt danych w przestrzeni wymiarowej...

24
Czy Shapiro – Wilk jest najlepszym testem normalności? Dlaczego może być lepszy niż inne testy, takie jak Anderson-Darling?

Czytałem gdzieś w literaturze, że test Shapiro – Wilka jest uważany za najlepszy test normalności, ponieważ dla danego poziomu istotności, , prawdopodobieństwo odrzucenia hipotezy zerowej, jeśli jest fałszywe, jest wyższe niż w przypadku drugiej testy normalności.αα\alpha Czy mógłbyś mi wyjaśnić,...

24
Przykłady PCA, w których komputery o niskiej wariancji są „przydatne”

Zwykle w analizie głównych składników (PCA) używa się pierwszych kilku komputerów PC, a komputery o niskiej wariancji są odrzucane, ponieważ nie wyjaśniają one dużej zmienności danych. Czy istnieją jednak przykłady, w których komputery PC o niskiej zmienności są przydatne (tj. Mają zastosowanie w...

24
Lasso bayesowskie kontra zwykłe lasso

Dostępne są różne programy wdrożeniowe dla lasso . Wiem wiele dyskusji na temat podejścia bayesowskiego i częstego na różnych forach. Moje pytanie jest bardzo specyficzne dla lasso - jakie są różnice lub zalety lasso baysian w porównaniu ze zwykłym lasso ? Oto dwa przykłady implementacji w...