Statystyki i duże zbiory danych

11
Poprawianie nazw zmiennych w zbiorze danych

Dobre nazwy zmiennych to: a) krótki / łatwy do pisania, b) łatwe do zapamiętania, c) zrozumiałe / komunikatywne. Czy coś zapomniałem? Spójność jest na co zwrócić uwagę. Powiedziałbym, że spójne konwencje nazewnictwa przyczyniają się do powyższych cech. Spójność przyczynia się do (b) łatwości...

11
Okresy przewidywania i tolerancji

Mam kilka pytań dotyczących przedziałów prognoz i tolerancji. Najpierw ustalmy przedziały tolerancji: otrzymujemy poziom ufności, powiedzmy 90%, procent populacji do przechwycenia, powiedzmy 99%, i wielkość próby, powiedzmy 20. Rozkład prawdopodobieństwa jest znany, powiedzmy normalny dla wygody....

11
Wybór modelu ABC

Zostało pokazane , że ABC wybór modelu z użyciem czynników Bayesa nie ma być zalecane ze względu na obecność błędu pochodzących z wykorzystaniem statystyk podsumowujących. Wniosek w tym artykule opiera się na badaniu zachowania popularnej metody aproksymacji współczynnika Bayesa (algorytm...

11
Czy istnieje coś takiego jak uczciwa śmierć?

Czy istnieje coś takiego jak uczciwa śmierć? Na kościach, gdzie liczba jest reprezentowana przez zgarniętą kropkę, to z pewnością robi różnicę? Czy ktoś przeprowadził jakieś badania? Zastanawiając się nad tym, dlaczego rzut monetą byłby sprawiedliwy? fizyka po każdej stronie jest zupełnie...

11
Używanie Adaboost z SVM do klasyfikacji

Wiem, że Adaboost próbuje wygenerować silny klasyfikator za pomocą liniowej kombinacji zestawu słabych klasyfikatorów. Jednak przeczytałem kilka artykułów sugerujących, że Adaboost i SVM działają harmonijnie (nawet jeśli SVM jest silnym klasyfikatorem) w pewnych warunkach i przypadkach . Nie...

11
Test Fishera w R.

Załóżmy, że mamy następujący zestaw danych: Men Women Dieting 10 30 Non-dieting 5 60 Jeśli uruchomię dokładny test Fishera w R, co to oznacza alternative = greater(lub mniej)? Na przykład: mat = matrix(c(10,5,30,60), 2,2) fisher.test(mat, alternative="greater") Dostaję p-value = 0.01588i...

11
Odniesienie dla

W swojej odpowiedzi na moje poprzednie pytanie @Erik P. podaje wyrażenie gdzie κ jest nadmiarem kurtozy rozkładu. Podanoodniesienie do wpisu w Wikipedii na tematrozkładu wariancji próbki, ale strona wikipedia mówi „potrzebne cytowanie”.V a r [ s2)] = σ4( 2n - 1+