Statystyki i duże zbiory danych

23
Kryminalistyka statystyczna: Benford i nie tylko

Jakie są szerokie metody wykrywania oszustw, anomalii, kruszenia itp. W pracach naukowych wyprodukowanych przez stronę trzecią? (Byłem zmotywowany, aby zapytać o to w ostatnim romansie Marca Hausera ). Zwykle w przypadku oszustw związanych z wyborami i rachunkowością przytaczany jest pewien wariant...

23
Jaka jest różnica między PCA a asymptotycznym PCA?

W dwóch artykułach z 1986 i 1988 r. Connor i Korajczyk zaproponowali podejście do modelowania zwrotów z aktywów. Ponieważ te szeregi czasowe mają zwykle więcej aktywów niż obserwacje okresu, zaproponowano wykonanie PCA w odniesieniu do przekrojowych kowariancji zwrotów aktywów. Nazwali tę metodę...

23
Co jest złego w tym „naiwnym” algorytmie tasowania?

Jest to kontynuacja pytania Stackoverflow o losowe tasowanie tablicy . Istnieją ustalone algorytmy (takie jak Knuff-Fisher-Yates Shuffle ), których należy używać do tasowania tablicy, zamiast polegać na „naiwnych” implementacjach ad-hoc. Jestem teraz zainteresowany udowodnieniem (lub obaleniem),...

23
Po co rozkładać mianownik w twierdzeniu Bayesa?

(Jestem nowicjuszem w statystykach. Jestem matematykiem i programistą i staram się zbudować coś w rodzaju naiwnego bayesowskiego filtra antyspamowego). Zauważyłem w wielu miejscach, że ludzie mają tendencję do rozkładania mianownika w równaniu z twierdzenia Bayesa. Zamiast tego: P.( A | B ) ⋅ P(...

23
Szacowanie rozkładu na podstawie trzech percentyli

Jakich metod mogę użyć do wnioskowania o rozkładzie, jeśli znam tylko trzy percentyle? Na przykład wiem, że w pewnym zbiorze danych piąty percentyl wynosi 8,135, 50 percentyl to 11 259, a 95 percentyl to 23 611. Chcę móc przejść z dowolnej innej liczby do jej percentyla. To nie są moje dane, a to...

23
Ustawianie węzłów w naturalnych splajnach sześciennych w R.

Mam dane z wieloma skorelowanymi funkcjami i chcę zacząć od ograniczenia funkcji z płynną funkcją podstawową przed uruchomieniem LDA. Próbuję użyć naturalnych splajnów sześciennych w splinespakiecie z nsfunkcją. Jak przejść do przypisywania węzłów? Oto podstawowy kod R: library(splines) lda.pred...

23
Biblioteki C ++ do obliczeń statystycznych

Mam określony algorytm MCMC, który chciałbym przenieść do C / C ++. Wiele kosztownych obliczeń jest już napisanych w C przez Cython, ale chcę mieć cały sampler napisany w skompilowanym języku, aby móc po prostu pisać opakowania dla Python / R / Matlab / cokolwiek. Po przeszukiwaniu skłaniam się ku...

23
Witryny z konkursami modelowania predykcyjnego

Biorę udział w konkursach modelowania predykcyjnego w Kaggle , TunedIt i CrowdAnalytix . Uważam, że te strony są dobrym sposobem na „wypracowanie” statystyk / uczenia maszynowego. Czy są jeszcze jakieś strony, o których powinienem wiedzieć? Co sądzisz o konkursach, w których gospodarz zamierza...