Statystyki i duże zbiory danych

11

Czy powinienem użyć przesunięcia dla mojego Poissona GLM?

Prowadzę badania, aby przyjrzeć się różnicom w gęstości i bogactwie gatunków ryb, gdy używam dwóch różnych podwodnych metod wizualnego spisu. Moje dane pierwotnie liczyły dane, ale potem zwykle zmienia się to na gęstość ryb, ale nadal zdecydowałem się na użycie Poissona GLM, co, mam nadzieję, ma...

r generalized-linear-model poisson-distribution offset

11

Technika uczenia maszynowego do nauki wzorców ciągów

Mam listę słów należących do różnych samookreślonych kategorii. Każda kategoria ma swój własny wzór (na przykład jedna ma stałą długość ze znakami specjalnymi, inna istnieje ze znaków, które występują tylko w tej kategorii „słowa”, ...). Na przykład: "ABC" -> type1 "ACC" -> type1 "a8 219"...

machine-learning classification similarities supervised-learning

11

Dlaczego brak negatywności jest ważny dla współpracujących systemów filtrujących / rekomendujących?

We wszystkich nowoczesnych systemach rekomendujących, które widziałem, które opierają się na faktoryzacji macierzy, nieujemna faktoryzacja macierzy jest wykonywana na matrycy filmu użytkownika. Rozumiem, dlaczego brak negatywności jest ważny dla interpretacji i / lub jeśli chcesz rzadkich...

recommender-system svd matrix-decomposition nnmf

11

R / mgcv: Dlaczego produkty tensorowe te () i ti () wytwarzają różne powierzchnie?

mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2)...

r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

11

Czy błędem jest użycie ANOVA zamiast testu t do porównania dwóch średnich?

Mam rozkład wynagrodzeń i chcę porównać różnicę w środkach dla mężczyzn i kobiet. Wiem, że istnieje test T studenta do porównywania dwóch średnich, ale po zasugerowaniu ANOVA spotkałem się z krytyką mówiącą, że ANOVA służy do porównania więcej niż dwóch średnich. Co (jeśli cokolwiek) jest...

hypothesis-testing anova t-test

11

Wybór modelu Mclust

Pakiet R mclustwykorzystuje BIC jako kryterium wyboru modelu klastra. Z mojego zrozumienia, model z najniższym BIC powinien zostać wybrany w porównaniu z innymi modelami (jeśli zależy ci tylko na BIC). Jednak gdy wszystkie wartości BIC są ujemne, Mclustfunkcja domyślnie przyjmuje model o najwyższej...

r clustering gaussian-mixture bic model-based-clustering

11

Czy AUC prawdopodobieństwo prawidłowej klasyfikacji losowo wybranej instancji z każdej klasy?

Przeczytałem ten podpis w gazecie i nigdy nie widziałem AUC opisanego w ten sposób nigdzie indziej. Czy to prawda? Czy istnieje dowód lub prosty sposób, aby to zobaczyć? Ryc. 2 pokazuje dokładność predykcji zmiennych dychotomicznych wyrażonych jako obszar pod krzywą charakterystyczną dla...

classification roc auc

11

Dlaczego duży wybór K obniża mój wynik weryfikacji krzyżowej?

Zabawy z Boston Housing zestawem danych i RandomForestRegressor(W / domyślne parametry) w scikit-learn, zauważyłem coś dziwnego: średni wynik walidacji krzyżowej spadła jak zwiększona ilość fałd poza 10. Moja strategia cross-walidacja była następująca: cv_met = ShuffleSplit(n_splits=k,...

machine-learning cross-validation random-forest sample-size scikit-learn

11

Jakie są zalety wykładniczego generatora losowego wykorzystującego metodę Ahrensa i Dietera (1972) zamiast transformacji odwrotnej?

Moje pytanie jest inspirowane wbudowanym generatorem wykładniczej liczby losowej R. , funkcją rexp(). Podczas próby generowania wykładniczych liczb losowych rozkładanych wykładniczo wiele podręczników zaleca metodę transformacji odwrotnej opisaną na tej stronie Wikipedii . Wiem, że istnieją inne...

r simulation random-generation exponential inverse-cdf

11

Dowód centralnego limitu twierdzenia nie wykorzystujący funkcji charakterystycznych

Czy jest jakiś dowód na to, że CLT nie używa funkcji charakterystycznych, prostszej metody? Może metody Tichomirowa lub Steina? Coś samodzielnego, co możesz wyjaśnić studentowi uniwersytetu (pierwszy rok matematyki lub fizyki) i zajmuje mniej niż jedną

mathematical-statistics central-limit-theorem characteristic-function

11

Suma niezależnych logarytmicznych zmiennych losowych wydaje się lognormalna?

Próbuję zrozumieć, dlaczego suma dwóch (lub więcej) logarytmicznych zmiennych losowych zbliża się do rozkładu logarytmicznego wraz ze wzrostem liczby obserwacji. Szukałem w Internecie i nie znalazłem żadnych wyników dotyczących tego. Oczywiście, jeśli i są niezależnymi zmiennymi logarytmicznymi,...

distributions lognormal convolution sum

11

Jakie jest prawdopodobieństwo wylosowania czwórki, gdy z talii 52 dobierane jest 20 kart?

Wczoraj graliśmy z domownikami w gry karciane i ktoś zadał to pytanie. Próbowaliśmy rozwiązać problem, ale nie mogliśmy go rozwiązać. Dziś rano się obudziłem i wciąż zastanawiam się, jak to rozwiązać. Czy możesz mi pomóc?

probability

11

Jaki jest najbardziej odpowiedni sposób na utworzenie zestawu podtrzymującego: aby usunąć niektóre przedmioty lub usunąć niektóre obserwacje z każdego przedmiotu?

Mam zestaw danych z 26 funkcjami i 31000 wierszami. Jest to zbiór danych 38 podmiotów. To jest dla systemu biometrycznego. Więc chcę być w stanie zidentyfikować podmioty. Aby mieć zestaw testowy, wiem, że muszę usunąć niektóre wartości. Więc co lepiej robić i dlaczego? (a) trzymaj 30 osób jako...

machine-learning cross-validation out-of-sample

11

Dlaczego estymator OLS współczynnika AR (1) jest tendencyjny?

Próbuję zrozumieć, dlaczego OLS podaje tendencyjny estymator procesu AR (1). Zastanów się W tym modelu naruszona jest ścisła egzogeniczność, tzn. y_t i \ epsilon_t są skorelowane, ale y_ {t-1} i \ epsilon_t są nieskorelowane. Ale jeśli jest to prawdą, to dlaczego poniższe proste wyprowadzenie...

time-series least-squares bias autoregressive estimators

11

Obliczanie przedziałów ufności dla trybu?

Szukam referencji dotyczących obliczania przedziałów ufności dla trybu (ogólnie). Bootstrap może wydawać się naturalnym pierwszym wyborem, ale jak omówiono w Romano (1988), standardowy bootstrap nie działa w trybie i nie zapewnia żadnego prostego rozwiązania. Czy coś się zmieniło od czasu tego...

confidence-interval bootstrap kernel-smoothing mode

11

Centralne twierdzenie graniczne dla pierwiastków kwadratowych sum iid zmiennych losowych

Zaintrygowany pytaniem z math.stackexchange i badając go empirycznie, zastanawiam się nad następującym stwierdzeniem o pierwiastku kwadratowym sum iid zmiennych losowych. Załóżmy że są zmiennymi losowymi o skończonej niezerowej średniej i wariancji , a . Twierdzenie o granicy centralnej mówi gdy...

normal-distribution central-limit-theorem sum

11

Terminy „odciąć” i „odciąć” o funkcjach ACF, PACF

Próbuję zrozumieć znaczenie odcięcia i odcięcia w szeregach czasowych ACF i PACF. Co oznacza „Odciąć po opóźnieniu”? Chodzi o limit? Co oznacza „ogony”? W powyższym przykładzie książka, której używam do nauki, mówi, że jest to proces AR. Ale nie mogę zrozumieć znaczenia „odcina się” i...

time-series autocorrelation terminology

11

Zrozumienie Gelman & Carlin „Beyond Power Calculations:…” (2014)

Czytam Gelman & Carlin „Beyond Power Calculations: Assessment Type S (Sign) and Type M (Magnitude) Errors” (2014). Próbuję zrozumieć główną ideę, główne podejście, ale jestem zdezorientowany. Czy ktoś mógłby pomóc mi wydestylować esencję? Papier wygląda mniej więcej tak (jeśli dobrze to...

statistical-significance effect-size power type-i-and-ii-errors

11

Zakres wartości skośności i kurtozy dla rozkładu normalnego

Chcę wiedzieć, jaki jest zakres wartości skośności i kurtozy, dla których dane są uważane za normalnie rozłożone. Przeczytałem wiele argumentów i przeważnie miałem pomieszane odpowiedzi. Niektórzy mówią, że skośność i dla kurtozy jest dopuszczalnym zakresem normalnego rozkładu. Niektórzy mówią że...

normal-distribution skewness kurtosis

11

Szacowanie parametrów bayesowskich czy testowanie hipotez bayesowskich?

Wydaje się, że w społeczności bayesowskiej trwa debata na temat tego, czy powinniśmy przeprowadzać szacowanie parametrów bayesowskich czy testowanie hipotez bayesowskich. Jestem zainteresowany pozyskiwaniem opinii na ten temat. Jakie są względne mocne i słabe strony tych podejść? W jakich...

hypothesis-testing bayesian