Statystyki i duże zbiory danych

23

Znalezienie pliku PDF na podstawie CDF

Jak znaleźć plik PDF (funkcja gęstości prawdopodobieństwa) rozkładu, biorąc pod uwagę CDF (funkcja rozkładu

distributions pdf cdf

23

Szeregi czasowe dla danych zliczających, z liczbą <20

Niedawno zacząłem pracować w klinice gruźlicy. Spotykamy się okresowo w celu omówienia liczby przypadków gruźlicy, które obecnie leczymy, liczby przeprowadzonych testów itp. Chciałbym zacząć modelować te liczby, aby nie tylko zgadywać, czy coś jest niezwykłe, czy nie. Niestety, miałem niewiele...

r time-series poisson-distribution count-data epidemiology

23

Jak działa wzmocnienie?

Jaki jest najłatwiejszy sposób na zrozumienie wzmocnienia? Dlaczego nie podnosi bardzo słabych klasyfikatorów „do nieskończoności”

machine-learning boosting

23

Modele statystyki przestrzennej: CAR vs SAR

Kiedy wolisz używać warunkowego modelu autoregresyjnego zamiast symultanicznego modelu autoregresyjnego podczas modelowania autokorelowanych danych lotniczych z odniesieniem

modeling spatial

23

Kryminalistyka statystyczna: Benford i nie tylko

Jakie są szerokie metody wykrywania oszustw, anomalii, kruszenia itp. W pracach naukowych wyprodukowanych przez stronę trzecią? (Byłem zmotywowany, aby zapytać o to w ostatnim romansie Marca Hausera ). Zwykle w przypadku oszustw związanych z wyborami i rachunkowością przytaczany jest pewien wariant...

meta-analysis fraud

23

Kiedy mają zastosowanie wyniki Shao dotyczące krzyżowej walidacji z pominięciem jednego z nich?

W swoim artykule Linear Model Selection by Cross-Validation Jun Shao pokazuje, że w przypadku problemu selekcji zmiennych w wielowymiarowej regresji liniowej metoda walidacji krzyżowej z pominięciem jednego elementu (LOOCV) jest „asymptotycznie niespójna”. W prostym języku angielskim ma tendencję...

classification model-selection cross-validation

23

Jaka jest różnica między PCA a asymptotycznym PCA?

W dwóch artykułach z 1986 i 1988 r. Connor i Korajczyk zaproponowali podejście do modelowania zwrotów z aktywów. Ponieważ te szeregi czasowe mają zwykle więcej aktywów niż obserwacje okresu, zaproponowano wykonanie PCA w odniesieniu do przekrojowych kowariancji zwrotów aktywów. Nazwali tę metodę...

pca econometrics

23

Grupowanie zmiennych na podstawie korelacji między nimi

Pytania: Mam dużą macierz korelacji. Zamiast grupować poszczególne korelacje, chcę grupować zmienne na podstawie ich korelacji ze sobą, tj. Jeśli zmienna A i zmienna B mają podobne korelacje do zmiennych C do Z, to A i B powinny być częścią tego samego klastra. Dobrym przykładem tego są różne...

correlation clustering correlation-matrix

23

Co jest złego w tym „naiwnym” algorytmie tasowania?

Jest to kontynuacja pytania Stackoverflow o losowe tasowanie tablicy . Istnieją ustalone algorytmy (takie jak Knuff-Fisher-Yates Shuffle ), których należy używać do tasowania tablicy, zamiast polegać na „naiwnych” implementacjach ad-hoc. Jestem teraz zainteresowany udowodnieniem (lub obaleniem),...

combinatorics randomness

23

Alternatywy dla drzew klasyfikacyjnych, z lepszymi wynikami predykcyjnymi (np .: CV)?

Szukam alternatywy dla drzew klasyfikacyjnych, które mogłyby zapewnić lepszą moc predykcyjną. Dane, z którymi mam do czynienia, mają czynniki zarówno dla zmiennych objaśniających, jak i wyjaśnianych. Pamiętam, że w tym kontekście natknąłem się na losowe lasy i sieci neuronowe, chociaż nigdy...

r machine-learning classification cart

23

Po co rozkładać mianownik w twierdzeniu Bayesa?

(Jestem nowicjuszem w statystykach. Jestem matematykiem i programistą i staram się zbudować coś w rodzaju naiwnego bayesowskiego filtra antyspamowego). Zauważyłem w wielu miejscach, że ludzie mają tendencję do rozkładania mianownika w równaniu z twierdzenia Bayesa. Zamiast tego: P.( A | B ) ⋅ P(...

bayesian

23

Radzenie sobie ze skorelowanymi regresorami

Jaka jest najlepsza strategia w wielokrotnej regresji liniowej z wysoce skorelowanymi regresorami? Czy uzasadnione jest dodanie produktu wszystkich skorelowanych

regression multicollinearity

23

Kod R do prognozowania szeregów czasowych przy użyciu filtra Kalmana

Czy ktoś ma dobry przykład prognozowania / wygładzania szeregów czasowych za pomocą Kalmana Filter w

r time-series kalman-filter

23

Szacowanie rozkładu na podstawie trzech percentyli

Jakich metod mogę użyć do wnioskowania o rozkładzie, jeśli znam tylko trzy percentyle? Na przykład wiem, że w pewnym zbiorze danych piąty percentyl wynosi 8,135, 50 percentyl to 11 259, a 95 percentyl to 23 611. Chcę móc przejść z dowolnej innej liczby do jej percentyla. To nie są moje dane, a to...

r regression quantiles

23

Ustawianie węzłów w naturalnych splajnach sześciennych w R.

Mam dane z wieloma skorelowanymi funkcjami i chcę zacząć od ograniczenia funkcji z płynną funkcją podstawową przed uruchomieniem LDA. Próbuję użyć naturalnych splajnów sześciennych w splinespakiecie z nsfunkcją. Jak przejść do przypisywania węzłów? Oto podstawowy kod R: library(splines) lda.pred...

r splines

23

Biblioteki C ++ do obliczeń statystycznych

Mam określony algorytm MCMC, który chciałbym przenieść do C / C ++. Wiele kosztownych obliczeń jest już napisanych w C przez Cython, ale chcę mieć cały sampler napisany w skompilowanym języku, aby móc po prostu pisać opakowania dla Python / R / Matlab / cokolwiek. Po przeszukiwaniu skłaniam się ku...

mcmc software c++ computing

23

Jak obliczyć wartość p parametrów dla modelu ARIMA w R?

Podczas przeprowadzania badań szeregów czasowych w R stwierdziłem, że arima zapewnia tylko wartości współczynników i ich standardowe błędy dopasowanego modelu. Jednak chcę również uzyskać wartość p współczynników. Nie znalazłem żadnej funkcji, która zapewnia znaczenie cefry. Więc chcę to obliczyć...

r time-series chi-squared arima parametric

23

Jakie są skuteczne sposoby organizacji kodu R i danych wyjściowych? [Zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte w zeszłym roku . Szukam informacji na temat sposobu, w jaki inni...

r project-management

23

Witryny z konkursami modelowania predykcyjnego

Biorę udział w konkursach modelowania predykcyjnego w Kaggle , TunedIt i CrowdAnalytix . Uważam, że te strony są dobrym sposobem na „wypracowanie” statystyk / uczenia maszynowego. Czy są jeszcze jakieś strony, o których powinienem wiedzieć? Co sądzisz o konkursach, w których gospodarz zamierza...

machine-learning predictive-models

23

Generuj losowo skorelowane dane między zmienną binarną a ciągłą

Chcę wygenerować dwie zmienne. Jedna to zmienna wyniku binarnego (powiedzmy sukces / porażka), a druga to wiek w latach. Chcę, aby wiek był pozytywnie skorelowany z sukcesem. Na przykład powinno być więcej sukcesów w wyższych segmentach wiekowych niż w niższych. Idealnie powinienem być w stanie...

correlation random-variable random-generation binary-data