Statystyki i duże zbiory danych

11

Jak bukmacherzy wybierają kursy na otwarcie?

Wiem, że bukmacherzy dostosowują swoje szanse, aby zmaksymalizować zysk, prognozując prawdopodobieństwo wielkości pieniędzy umieszczonych w każdym wyniku. Jak bukmacherzy wybierają kursy na

predictive-models

11

Czy przekształcenie rw Fishera z ma korzyść z metaanalizy?

Zwykle przekształca się w Fishera aby sprawdzić różnicę między dwiema wartościami . Ale kiedy należy przeprowadzić metaanalizę, dlaczego powinniśmy zrobić taki krok? Czy poprawia to błąd pomiaru lub błąd niezwiązany z próbkowaniem i dlaczego powinniśmy założyć, że jest niedokładnym oszacowaniem...

correlation variance sampling meta-analysis

11

Poprawianie nazw zmiennych w zbiorze danych

Dobre nazwy zmiennych to: a) krótki / łatwy do pisania, b) łatwe do zapamiętania, c) zrozumiałe / komunikatywne. Czy coś zapomniałem? Spójność jest na co zwrócić uwagę. Powiedziałbym, że spójne konwencje nazewnictwa przyczyniają się do powyższych cech. Spójność przyczynia się do (b) łatwości...

project-management

11

Okresy przewidywania i tolerancji

Mam kilka pytań dotyczących przedziałów prognoz i tolerancji. Najpierw ustalmy przedziały tolerancji: otrzymujemy poziom ufności, powiedzmy 90%, procent populacji do przechwycenia, powiedzmy 99%, i wielkość próby, powiedzmy 20. Rozkład prawdopodobieństwa jest znany, powiedzmy normalny dla wygody....

prediction prediction-interval tolerance-interval

11

Wybór modelu ABC

Zostało pokazane , że ABC wybór modelu z użyciem czynników Bayesa nie ma być zalecane ze względu na obecność błędu pochodzących z wykorzystaniem statystyk podsumowujących. Wniosek w tym artykule opiera się na badaniu zachowania popularnej metody aproksymacji współczynnika Bayesa (algorytm...

bayesian model-selection prediction abc

11

Ćwiczenia / eksperymenty w klasie, aby uczyć pojęć statystycznych?

Zamierzam udzielić nastolatkom godzinnego wykładu na temat statystyki. Prawdopodobnie zobaczę je tylko raz. Ten scenariusz może się powtarzać w kółko. Chciałbym dać im trochę aktywności, aby mogli doświadczyć statystyk. Ale jestem zmuszony to zrobić z ludźmi, którzy nie wiedzą nic o...

teaching

11

Znaczące predyktory stają się nieistotne w wielokrotnej regresji logistycznej

Kiedy analizuję moje zmienne w dwóch osobnych (jednoczynnikowych) modelach regresji logistycznej, otrzymuję: Predictor 1: B= 1.049, SE=.352, Exp(B)=2.85, 95% CI=(1.43, 5.69), p=.003 Constant: B=-0.434, SE=.217, Exp(B)=0.65, p=.046 Predictor 2: B= 1.379, SE=.386, Exp(B)=3.97, 95% CI=(1.86, 8.47),...

logistic statistical-significance multiple-regression

11

Czy istnieje coś takiego jak uczciwa śmierć?

Czy istnieje coś takiego jak uczciwa śmierć? Na kościach, gdzie liczba jest reprezentowana przez zgarniętą kropkę, to z pewnością robi różnicę? Czy ktoś przeprowadził jakieś badania? Zastanawiając się nad tym, dlaczego rzut monetą byłby sprawiedliwy? fizyka po każdej stronie jest zupełnie...

dice

11

Używanie Adaboost z SVM do klasyfikacji

Wiem, że Adaboost próbuje wygenerować silny klasyfikator za pomocą liniowej kombinacji zestawu słabych klasyfikatorów. Jednak przeczytałem kilka artykułów sugerujących, że Adaboost i SVM działają harmonijnie (nawet jeśli SVM jest silnym klasyfikatorem) w pewnych warunkach i przypadkach . Nie...

classification svm references boosting

11

Jak znaleźć odchylenie standardowe próbki odchylenie standardowe od rozkładu normalnego?

Wybacz mi, że coś przeoczyłem. Jestem fizykiem z rozkładem (histogramem) skupionym wokół średniej wartości zbliżonej do rozkładu normalnego. Ważną dla mnie wartością jest odchylenie standardowe tej losowej zmiennej Gaussa. Jak miałbym spróbować znaleźć błąd w odchyleniu standardowym próbki? Mam...

normal-distribution standard-deviation error measurement-error

11

Test Fishera w R.

Załóżmy, że mamy następujący zestaw danych: Men Women Dieting 10 30 Non-dieting 5 60 Jeśli uruchomię dokładny test Fishera w R, co to oznacza alternative = greater(lub mniej)? Na przykład: mat = matrix(c(10,5,30,60), 2,2) fisher.test(mat, alternative="greater") Dostaję p-value = 0.01588i...

r statistical-significance contingency-tables fishers-exact

11

Zastanawiasz się, co oznacza ta tabela analizy wykresu fasoli

Jak interpretować i generować wykresy wykresów fasoli. Oto jeden przykład wzięty z Walkesa i in. 2010 r . Jakiego rodzaju dane są najbardziej przydatne? (źródło: biomedcentral.com )

data-visualization boxplot

11

Czy rozkład Poissona jest stabilny i czy istnieją formuły inwersji dla MGF?

Po pierwsze, mam pytanie, czy rozkład Poissona jest „stabilny”, czy nie. Bardzo naiwnie (i nie jestem zbyt pewny co do „stabilnych” rozkładów), opracowałem rozkład liniowej kombinacji rozproszonych RV Poissona, używając iloczynu MGF. Wygląda na to, że dostaję kolejnego Poissona z parametrem równym...

distributions poisson-distribution mgf

11

Czyli SD czy Mediana MAD, aby podsumować mocno wypaczoną zmienną?

Pracuję na mocno wypaczonych danych, więc używam mediany zamiast środka do podsumowania głównej tendencji. Chciałbym mieć miary dyspersji Choć często widzę ludzi raportowania średnią odchylenie standardowe±±\pm lub mediany kwartyle±±\pm podsumowanie tendencji centralnej, to jest ok zgłosić mediana...

mean skewness median reporting mad

11

Tworzenie automatycznie skorelowanych wartości losowych w R

Próbujemy stworzyć automatycznie skorelowane wartości losowe, które zostaną wykorzystane jako szeregi czasowe. Nie mamy żadnych danych, do których się odwołujemy, a po prostu chcemy stworzyć wektor od zera. Z jednej strony potrzebujemy oczywiście losowego procesu z rozkładem i jego SD. Z drugiej...

r time-series random-variable autocorrelation lags

11

Czy mogę przetestować hipotezę pod kątem wypaczania normalnych danych?

Mam zbiór danych, które pierwotnie uważałem za normalnie rozpowszechniane. Potem faktycznie na to spojrzałem i zdałem sobie sprawę, że tak nie jest, głównie dlatego, że dane są wypaczone, a także zrobiłem test Shapiro-Wilksa. Nadal chciałbym to przeanalizować metodami statystycznymi, dlatego...

hypothesis-testing normal-distribution goodness-of-fit skewness skew-normal

11

Kurs projektowania eksperymentalnego dla górników danych

Jestem informatykiem zajmującym się eksploracją danych. Nie jest tajemnicą stwierdzenie, że informatycy są dość słabi w systematycznym projektowaniu i ocenie eksperymentalnej - stosowanie wartości p i szacunków ufności uważa się za zaawansowane :). Co chciałbym wiedzieć, czy istnieją dobre kursy /...

references experiment-design

11

Testuj właściwość markowa w szeregu czasowym

Biorąc pod uwagę (obserwowana) Czas serii o x t ∈ { 1 , . . . , N } , to jest test statystyczny testowania zerową hipotezę, że P ( X , T | X T - 1 , X t - 2 , . . . , X 1 ) = P ( x T | X t - 1 ) ( tj. własność markov)?XtXtX_tXt∈ { 1 , . . . , n }Xt∈{1,...,n}X_t\in\{1,...,n\}P.( Xt| Xt - 1, Xt - 2,...

time-series hypothesis-testing markov-process

11

Odniesienie dla

W swojej odpowiedzi na moje poprzednie pytanie @Erik P. podaje wyrażenie gdzie κ jest nadmiarem kurtozy rozkładu. Podanoodniesienie do wpisu w Wikipedii na tematrozkładu wariancji próbki, ale strona wikipedia mówi „potrzebne cytowanie”.V a r [ s2)] = σ4( 2n - 1+

estimation variance references

11

Identyfikacja wartości odstających dla regresji nieliniowej

Prowadzę badania w dziedzinie odpowiedzi funkcjonalnej roztoczy. Chciałbym zrobić regresję, aby oszacować parametry (szybkość ataku i czas obsługi) funkcji Rogers typu II. Mam zestaw danych z pomiarami. Jak mogę najlepiej określić wartości odstające? Do mojej regresji używam następującego skryptu...

r outliers nonlinear-regression