Statystyki i duże zbiory danych

10

Czytałem literaturę, że losowe lasy nie mogą się przewyższyć. Chociaż brzmi to świetnie, wydaje się zbyt piękne, aby mogło być prawdziwe. Czy jest możliwe, aby rf się

random-forest overfitting

10

Jak wybrać rozmiar zestawu szkoleniowego, walidacji krzyżowej i zestawu testowego dla danych o małej próbce?

Załóżmy, że mam małą próbkę, np. N = 100, i dwie klasy. Jak wybrać rozmiar zestawu szkoleniowego, walidacyjnego i testowego do uczenia maszynowego? Intuicyjnie wybrałbym Rozmiar zestawu treningowego wynosi 50 Zestaw do walidacji krzyżowej rozmiar 25 i Rozmiar testowy wynosi 25. Ale...

machine-learning sampling svm cross-validation sample-size

10

Czy można wykazać statystycznie, że samochody są używane jako narzędzia zbrodni?

Niedawno usłyszałem historię, w której ktoś powiedział, że jeśli chce kogoś zabić (i uciec), zrobi to z samochodem. Przytaczali różne statystyki dotyczące liczby zgonów związanych z samochodami (w tym samochodów na pieszych) w połączeniu z dodatkowymi statystykami dotyczącymi liczby kierowców...

statistical-significance

10

Bezstronny estymator z minimalną wariancją dla

Niech będzie losową próbką o rozkładzie dla . To znaczy,X1,...,XnX1,...,Xn X_1,

probability self-study estimation unbiased-estimator exponential-family

10

Współczynnik korelacji międzyklasowej w modelu mieszanym z losowymi nachyleniami

Mam następujący model m_plotwyposażony w lme4::lmerskrzyżowane efekty losowe dla uczestników ( lfdn) i przedmiotów ( content): Random effects: Groups Name Variance Std.Dev. Corr lfdn (Intercept) 172.173 13.121 role1 62.351 7.896 0.03 inference1 24.640 4.964 0.08 -0.30 inference2 52.366...

mixed-model lme4-nlme intraclass-correlation

10

Jak interpretować wykresy ACF i PACF

Chcę tylko sprawdzić, czy poprawnie interpretuję wykresy ACF i PACF: Dane odpowiadają błędom wygenerowanym między rzeczywistymi punktami danych a oszacowaniami wygenerowanymi przy użyciu modelu AR (1). Spojrzałem na odpowiedź tutaj: Oszacuj współczynniki ARMA na podstawie kontroli ACF i...

time-series arima interpretation autocorrelation acf-pacf

10

Wnioskowanie o modelu mieszanki 2-gaussowskiej z MCMC i PyMC

Problem Chcę dopasować parametry modelu prostej populacji mieszanki 2-Gaussa. Biorąc pod uwagę cały szum wokół metod bayesowskich, chcę zrozumieć, czy w przypadku tego problemu wnioskowanie bayesowskie jest lepszym narzędziem niż tradycyjne metody dopasowywania. Do tej pory MCMC radzi sobie...

bayesian gaussian-mixture frequentist pymc method-comparison

10

Konwertuj rozkład Poissona na rozkład normalny

Mam przede wszystkim wykształcenie informatyczne, ale teraz próbuję nauczyć się podstawowych statystyk. Mam pewne dane, które moim zdaniem mają rozkład Poissona Mam dwa pytania: Czy to rozkład Poissona? Po drugie, czy można przekształcić to w rozkład normalny? Każda pomoc będzie mile...

normal-distribution data-transformation poisson-distribution

10

Średnie K dla podobieństw cosinusa vs. odległość euklidesowa (LSA)

Używam ukrytej analizy semantycznej do reprezentowania zbioru dokumentów w przestrzeni o niższych wymiarach. Chcę zgrupować te dokumenty w dwie grupy za pomocą k-średnich. Kilka lat temu zrobiłem to, używając gensim Pythona i pisząc własny algorytm k-średnich. Określiłem centroidy gromadowe na...

k-means svd lsa cosine-distance cosine-similarity

10

Przykład dwóch * skorelowanych * zmiennych normalnych, których suma nie jest normalna

Znam kilka fajnych przykładów par skorelowanych zmiennych losowych, które są marginalnie normalne, ale nie są razem normalne. Zobacz tę odpowiedź za Dilip Sarwate , a ten jeden przez kard . Znam też przykład dwóch normalnych zmiennych losowych, których suma nie jest normalna. Zobacz tę odpowiedź w...

correlation normal-distribution multivariate-analysis bivariate

10

Wykrywanie anomalii szeregów czasowych za pomocą Pythona

Muszę wdrożyć wykrywanie anomalii w kilku zestawach danych szeregów czasowych. Nigdy wcześniej tego nie robiłem i liczyłem na radę. Bardzo dobrze czuję się w Pythonie, więc wolałbym, aby rozwiązanie było zaimplementowane w nim (większość mojego kodu to Python dla innych części mojej pracy). Opis...

machine-learning time-series python computational-statistics anomaly-detection

10

Od identyfikacji do oszacowania

Obecnie czytam pracę Pearl (Pearl, 2009, 2. wydanie) na temat przyczynowości i walki o ustalenie związku między nieparametryczną identyfikacją modelu a faktycznym oszacowaniem. Niestety sam Pearl milczy na ten temat. Na przykład mam na myśli prosty model z przyczynową ścieżką, x → z→ yx→z→yx...

estimation references causality

10

Odniesienie do historii o pobieraniu próbek z książki telefonicznej

Rozmawiałem dzisiaj z kimś o pobieraniu próbek i niejasno pamiętam historię o bardzo szanowanym statystyce, który zaleca systematyczne pobieranie próbek z książki telefonicznej w konkretnej sprawie prawnej. Pamiętam historię, która opowiadała coś jak sędzia w sądzie, mówiąc coś do niego: „Nie wiem...

sampling references history

10

Diagnostyka resztkowa i jednorodność wariancji w liniowym modelu mieszanym

Zanim zadałem to pytanie, przeszukałem naszą stronę i znalazłem wiele podobnych pytań (jak tutaj , tutaj i tutaj ). Ale wydaje mi się, że na te powiązane pytania nie udzielono odpowiedzi lub nie omówiono ich, dlatego chciałbym ponownie zadać to pytanie. Uważam, że powinna istnieć duża liczba...

mixed-model residuals heteroscedasticity diagnostic

10

Estymator największej wiarygodności dla minimalnych rozkładów wykładniczych

Utknąłem, jak rozwiązać ten problem. Mamy więc dwie sekwencje zmiennych losowych, i dla . Teraz i są niezależnymi rozkładami wykładniczymi o parametrach i . Jednak zamiast obserwacji i , a nie obserwuje i

self-study maximum-likelihood exponential minimum

10

Mylić z wizualnym wyjaśnieniem wektorów własnych: w jaki sposób wizualnie różne zestawy danych mogą mieć te same wektory własne?

Wiele podręczników statystycznych zapewnia intuicyjną ilustrację tego, czym są wektory własne macierzy kowariancji: Wektory u i z tworzą wektory własne (cóż, osie własne). To ma sens. Ale jedną rzeczą, która mnie myli, jest to, że wydobywamy wektory własne z macierzy korelacji , a nie z surowych...

correlation pca covariance-matrix eigenvalues

10

bayesglm (ramię) kontra MCMCpack

Zarówno bayesglm()(w pakiecie ramienia R), jak i różne funkcje w pakiecie MCMCpack mają na celu dokonanie estymacji bayesowskiej uogólnionych modeli liniowych, ale nie jestem pewien, czy obliczają to samo. Funkcje MCMCpack wykorzystują łańcuch Markova Monte Carlo, aby uzyskać (zależną) próbkę ze...

bayesian generalized-linear-model

10

Czy istnieje elegancki / wnikliwy sposób zrozumienia tej tożsamości regresji liniowej dla wielu ?

W regresji liniowej doszedłem do cudownego wyniku, jeśli dopasujemy model E[Y]=β1X1+β2X2+c,E[Y]=β1X1+β2X2+c,E[Y] = \beta_1 X_1 + \beta_2 X_2 + c, to jeśli znormalizujemy i wyśrodkujemy dane , i ,YYYX1X1X_1X2X2X_2 R2=Cor(Y,X1)β1+Cor(Y,X2)β2.R2=Cor(Y,X1)β1+Cor(Y,X2)β2.R^2 = \mathrm{Cor}(Y,X_1)...

regression linear-model r-squared proof

10

Jak powinienem modelować interakcje między zmiennymi objaśniającymi, gdy jedna z nich może mieć wyrażenia kwadratowe i sześcienne?

Mam szczerą nadzieję, że sformułowałem to pytanie w taki sposób, że można na nie ostatecznie odpowiedzieć - jeśli nie, proszę dać mi znać, a spróbuję ponownie! Powinienem też chyba zauważyć, że do tych analiz będę używać R. Mam kilka środków, plant performance (Ys)które, jak podejrzewam, były pod...

hypothesis-testing mixed-model interaction nonlinear regression-strategies

10

Dane wyjściowe Scikit SVM w klasyfikacji wieloklasowej zawsze dają tę samą etykietę

Obecnie używam Scikit Learn z następującym kodem: clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') a następnie dopasuj i przewiduj zestaw danych z 7 różnymi etykietami. Mam dziwny wynik. Bez względu na to, jaką technikę walidacji krzyżowej używam...

svm scikit-learn libsvm multi-class optunity