Statystyki i duże zbiory danych

28

Kogo śledzić na github, aby dowiedzieć się o najlepszych praktykach w analizie danych?

Pomocne jest przestudiowanie kodu analizy danych ekspertów. Ostatnio czytałem github i jest tam wiele osób udostępniających kod analizy danych. Obejmuje to kilka pakietów R (które są oczywiście dostępne bezpośrednio z CRAN), ale także kilka przykładów powtarzalnych badań, szczególnie przy użyciu R...

r reproducible-research

28

Dobre źródła do nauki sieci Markov Monte Carlo (MCMC)

Wszelkie sugestie dotyczące dobrego źródła do nauki metod

references mcmc

28

Co kryje się za interfejsem API Google Prediction?

Google Prediction API to usługa w chmurze, w której użytkownik może przesłać dane szkoleniowe, aby wyszkolić tajemniczego klasyfikatora, a następnie poprosić go o klasyfikację danych przychodzących, na przykład w celu wdrożenia filtrów spamu lub przewidzenia preferencji użytkownika. Ale co jest za...

machine-learning

28

Dostosowanie odległości Kullback-Leibler?

Spójrz na ten obrazek: Jeśli wyciągniemy próbkę z gęstości czerwonej, wówczas oczekuje się, że niektóre wartości będą mniejsze niż 0,25, podczas gdy niemożliwe jest wygenerowanie takiej próbki z rozkładu niebieskiego. W konsekwencji odległość Kullbacka-Leiblera od gęstości czerwonej do gęstości...

kullback-leibler

28

Problemy z wykresami kołowymi

Wydaje się, że rośnie liczba dyskusji na temat wykresów kołowych. Głównymi argumentami przeciwko temu wydają się: Obszar jest postrzegany z mniejszą mocą niż długość. Wykresy kołowe mają bardzo niski stosunek danych do punktu pikseli Myślę jednak, że mogą one być w jakiś sposób przydatne przy...

data-visualization many-categories pie-chart

28

Jakie są interesujące i dobrze napisane artykuły dotyczące statystyki stosowanej?

Jakie są dobre artykuły opisujące zastosowania statystyk, które byłyby zabawne i pouczające? Żeby było jasne, tak naprawdę nie szukam prac opisujących nowe metody statystyczne (np. Artykuł o regresji kątowej), ale raczej prac opisujących sposoby rozwiązywania rzeczywistych problemów. Na przykład...

references application

28

Kwadratowa formuła Pseudo R dla GLM

Znaleziono, że wzór na pseudo- w książce rozszerzającej się model liniowy z R Julian J. recz (str. 59).R2)R2R^2 .1 - ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}} Jest to wspólna formuła pseudo- na

r regression generalized-linear-model r-squared

28

Miary podobieństwa lub odległości między dwiema macierzami kowariancji

Czy są jakieś miary podobieństwa lub odległości między dwiema symetrycznymi macierzami kowariancji (obie o tych samych wymiarach)? Mam tu na myśli analogie do dywergencji KL dwóch rozkładów prawdopodobieństwa lub odległości euklidesowej między wektorami, z wyjątkiem zastosowanych do macierzy....

distributions hypothesis-testing covariance-matrix kullback-leibler information-theory

28

Obliczanie powtarzalności efektów z modelu Lmer

Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...

mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

28

Jaka jest różnica między przedziałami ufności a testowaniem hipotez?

Czytałem o kontrowersjach dotyczących testowania hipotez z niektórymi komentatorami sugerującymi, że testowanie hipotez nie powinno być stosowane. Niektórzy komentatorzy sugerują stosowanie zamiast tego przedziałów ufności . Jaka jest różnica między przedziałami ufności a testowaniem hipotez?...

hypothesis-testing confidence-interval

28

Wybór najlepszego modelu spośród różnych „najlepszych” modeli

Jak wybrać model spośród różnych modeli wybranych różnymi metodami (np. Wybór do tyłu lub do przodu)? Co to jest model

regression model-selection

28

Dlaczego RSS jest dystrybuowany chi razy razy np?

Chciałbym zrozumieć, dlaczego w modelu OLS rozkłada się RSS (resztkową sumę kwadratów) χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p) ( ppp oznacza liczbę parametrów w modelu, nnn liczbę obserwacji). Przepraszam, że zadałem tak podstawowe pytanie, ale wydaje się, że nie jestem w stanie znaleźć odpowiedzi...

regression distributions least-squares

28

Obliczanie wartości p za pomocą bootstrap z R

Korzystam z pakietu „boot”, aby obliczyć przybliżoną 2-stronną wartość p ładowania początkowego, ale wynik jest zbyt daleko od wartości p użycia t.test. Nie mogę zrozumieć, co zrobiłem źle w moim kodzie R. Czy ktoś może mi dać na to wskazówkę time = c(14,18,11,13,18,17,21,9,16,17,14,15,...

r hypothesis-testing p-value bootstrap permutation-test

28

Jakie są niebezpieczeństwa związane z naruszeniem założenia homoscedastyczności dla regresji liniowej?

Jako przykład rozważmy ChickWeightzestaw danych w R. Wariancja oczywiście rośnie z czasem, więc jeśli użyję prostej regresji liniowej, takiej jak: m <- lm(weight ~ Time*Diet, data=ChickWeight) Moje pytania: Które aspekty modelu będą wątpliwe? Czy problemy ograniczają się do ekstrapolacji...

r regression heteroscedasticity assumptions

28

Dlaczego podczas uczenia się uczniowie są „słabi”?

Zobacz także podobne pytanie na temat statystyki . SE . W zwiększeniu algorytmy, takie jak adaboost i LPBoost wiadomo, że „słabe” uczestników być łączone tylko lepsze wyniki niż przypadek użyteczne z Wikipedia: Stosowane przez niego klasyfikatory mogą być słabe (tj. Wykazywać znaczny poziom...

machine-learning theory boosting

28

Jak interpretować wariancję i korelację efektów losowych w modelu efektów mieszanych?

Mam nadzieję, że wszystkim wam to nie przeszkadza, ale potrzebuję pomocy w interpretacji wyników dla liniowego modelu efektów mieszanych, o których starałem się nauczyć w R. Jestem nowy w analizie danych podłużnych i regresji liniowych efektów mieszanych. Mam model, który dopasowałem do tygodni...

r mixed-model interpretation panel-data

28

Samokształcenie a nauczana edukacja?

Istnieje pytanie o podobnym przeznaczeniu na programmers.SE . To pytanie ma kilka całkiem dobrych odpowiedzi, ale ogólny temat wydaje się być taki, że bez samokształcenia nie ma miejsca. Oczywiście istnieje pewna znacząca różnica między programowaniem a statystyką - dzięki programowaniu naprawdę...

self-study references teaching

28

Jak radzić sobie z wielokoliniowością podczas wyboru zmiennych?

Mam zestaw danych z 9 ciągłymi zmiennymi niezależnymi. Staram się wybierać między tymi zmiennymi, aby dopasować model do jednego procentu (zależnej) zmiennej Score. Niestety wiem, że między kilkoma zmiennymi wystąpi poważna kolinearność. Próbowałem użyć stepAIC()funkcji w R do wyboru zmiennych,...

r multiple-regression feature-selection multicollinearity

28

Jak mierzy się nierównomierność rozkładu?

Próbuję wymyślić metrykę pomiaru nierównomierności rozkładu dla prowadzonego eksperymentu. Mam zmienną losową, która powinna być równomiernie rozłożona w większości przypadków, i chciałbym być w stanie zidentyfikować (i ewentualnie zmierzyć stopień) przykładów zestawów danych, w których zmienna nie...

distributions variance random-variable uniform

28

Test t dla częściowo sparowanych i częściowo niesparowanych danych

Badacz chce opracować połączoną analizę kilku zestawów danych. W niektórych zestawach danych istnieją sparowane obserwacje dla leczenia A i B. W innych są niesparowane dane A i / lub B. Szukam odniesienia do dostosowania testu t lub testu współczynnika prawdopodobieństwa dla takich częściowo...

hypothesis-testing t-test paired-data change-scores