Statystyki i duże zbiory danych

14

Jak testować równoczesność równości wybranych współczynników w modelu logit lub probit?

Jak przetestować równość wybranych współczynników w modelu logit lub probit? Jakie jest standardowe podejście i jakie jest najnowsze

hypothesis-testing logit probit

14

Confounder - definicja

Według M. Katza w jego książce Analiza wieloczynnikowa (sekcja 1.2, strona 6): „ Zdezorientator jest związany z czynnikiem ryzyka i przyczynowo związany z wynikiem. ” Dlaczego ten dezorientator musi być przyczynowo związany z wynikiem? Czy wystarczyłoby, aby osoba wprowadzająca zamieszanie...

causality definition confounding

14

Standardowy błąd mediany

Czy poniższa formuła jest odpowiednia, jeśli chcę zmierzyć błąd standardowy mediany w przypadku małej próbki o nietypowym rozkładzie (używam pytona)? sigma=np.std(data) n=len(data)

standard-error median

14

Przedział ufności dla różnicy między proporcjami

Zastanawiam się, czy ktoś mógłby mi powiedzieć, czy poprawnie obliczyłem przedział ufności dla różnicy między dwiema proporcjami. Wielkość próby wynosi 34, z czego 19 to kobiety, a 15 to mężczyźni. Dlatego różnica w proporcjach wynosi 0,1176471. Obliczam 95% przedział ufności dla różnicy między...

r confidence-interval

14

Jak porównać dwa procesy Gaussa?

Rozbieżność Kullbacka-Leiblera to metryka służąca do porównania dwóch funkcji gęstości prawdopodobieństwa, ale jaką metrykę stosuje się do porównania XXX i Y dwóch GP

gaussian-process metric

14

Dlaczego prawdopodobieństwo zerowe dla dowolnej wartości rozkładu normalnego?

Zauważyłem, że w rozkładzie normalnym prawdopodobieństwo wynosi zero, natomiast dla rozkładu Poissona nie będzie równe zero, gdy jest liczbą całkowitą nieujemną.P(x=c)P(x=c)P(x=c)ccc Moje pytanie brzmi: czy prawdopodobieństwo jakiejkolwiek stałej w rozkładzie normalnym wynosi zero, ponieważ...

probability normal-distribution poisson-distribution

14

Jak podzielić zestaw danych, aby wykonać 10-krotną weryfikację krzyżową

Zablokowana . To pytanie i odpowiedzi są zablokowane, ponieważ pytanie jest nie na temat, ale ma znaczenie historyczne. Obecnie nie akceptuje nowych odpowiedzi ani interakcji. Teraz mam Rramkę danych (szkolenie). Czy ktoś może mi powiedzieć, jak losowo podzielić ten...

cross-validation

14

Pakiety imputacji KNN

Szukam pakietu kalkulacyjnego KNN. Patrzyłem na pakiet imputacji ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ), ale z jakiegoś powodu funkcja imputacji KNN (nawet jeśli podąża za przykładem z opisu) wydaje się tylko przypisywać wartości zerowe (jak poniżej). Rozglądałem się,...

r k-nearest-neighbour data-imputation

14

Losowy las i prognozy

Próbuję zrozumieć, jak działa Losowy Las. Rozumiem, jak buduje się drzewa, ale nie rozumiem, w jaki sposób Losowy Las przewiduje prognozy na podstawie próbki z torby. Czy ktoś mógłby mi podać proste wyjaśnienie?

random-forest prediction

14

Czy regresja krokowa zapewnia tendencyjne oszacowanie kwadratowej liczby ludności?

W psychologii i innych dziedzinach często stosuje się formę regresji stopniowej, która obejmuje: Spójrz na pozostałe predyktory (początkowo nie ma ich w modelu) i zidentyfikuj predyktor, który powoduje największą zmianę r-kwadrat; Jeśli wartość p zmiany r-kwadrat jest mniejsza niż alfa...

regression model-selection bias r-squared stepwise-regression

14

Metoda generowania skorelowanych nienormalnych danych

Chciałbym znaleźć metodę generowania skorelowanych, nienormalnych danych. Idealnie więc jakiś rodzaj rozkładu, który przyjmuje parametr kowariancji (lub korelacji) jako parametr i generuje dane, które ją przybliżają. Ale tutaj jest haczyk: metoda, którą próbuję znaleźć, powinna mieć elastyczność,...

multivariate-analysis references random-generation skewness copula

14

Czy muszę usunąć zmienne, które są skorelowane / współliniowe przed uruchomieniem kmeans?

Prowadzę kmeans, aby zidentyfikować klastry klientów. Mam około 100 zmiennych do identyfikacji klastrów. Każda z tych zmiennych reprezentuje% wydatków klienta na kategorię. Tak więc, jeśli mam 100 kategorii, mam te 100 zmiennych, więc suma tych zmiennych wynosi 100% dla każdego klienta. Teraz te...

clustering data-mining k-means multicollinearity compositional-data

14

Związek między testem McNemara a warunkową regresją logistyczną

Interesuje mnie modelowanie danych odpowiedzi binarnej w sparowanych obserwacjach. Naszym celem jest wnioskowanie o skuteczności interwencji poprzedzającej post w grupie, potencjalnie dostosowując się do kilku zmiennych towarzyszących i ustalając, czy istnieje modyfikacja efektu przez grupę, która...

logistic mcnemar-test clogit

14

Czy jest to dopuszczalny sposób analizy modeli z efektem mieszanym z Lme4 w R?

Mam do analizy zestaw danych z niezrównoważonymi powtarzanymi pomiarami i przeczytałem, że sposób, w jaki większość pakietów statystycznych obsługuje to z ANOVA (tj. Suma kwadratów typu III) jest błędny. Dlatego chciałbym użyć modelu mieszanych efektów do analizy tych danych. Dużo czytałem o...

r mixed-model lme4-nlme

14

Wnioskowanie dla sceptycznego (ale nie niechętnego matematyce) czytelnika

Właśnie obejrzałem wykład na temat wnioskowania statystycznego („porównywanie proporcji i środków”), będący częścią wstępu do kursu online dotyczącego statystyk. Materiał miał dla mnie jak najmniej sensu, jak zawsze (do tej pory musiałem to widzieć dziesiątki razy, rozłożone w ciągu ostatnich...

references inference point-estimation

14

Optymalizacja: źródło wszelkiego zła w statystykach?

Słyszałem wcześniej następujące wyrażenie: „Optymalizacja jest źródłem wszelkiego zła w statystykach”. Na przykład najlepsza odpowiedź w tym wątku zawiera to stwierdzenie w związku z niebezpieczeństwem zbyt agresywnej optymalizacji podczas wyboru modelu. Moje pierwsze pytanie brzmi: czy ten...

cross-validation optimization overfitting

14

Zrozumienie Metropolis-Hastings z asymetrycznym rozkładem propozycji

Próbowałem zrozumieć algorytm Metropolis-Hastings, aby napisać kod do oszacowania parametrów modelu (tj. ). Według bibliografii algorytm Metropolis-Hastings ma następujące kroki:f(x)=a∗xf(x)=a∗xf(x)=a*x WygenerujYt∼q(y|xt)Yt∼q(y|xt)Y_t \sim q(y|x^t) Xt+1={Yt,xt,with probabilityρ(xt,Yt),with...

mcmc metropolis-hastings

14

Czy estymator bezstronny minimalizuje średnie odchylenie bezwzględne?

Jest to kontynuacja, ale także inne pytanie w stosunku do mojego poprzedniego . Czytałem na Wikipedii, że „ Estymator bezstronny minimalizuje ryzyko związane z funkcją utraty absolutnego odchylenia, jak zaobserwował Laplace ”. Jednak moje wyniki symulacji Monte Carlo nie potwierdzają tego...

r unbiased-estimator median lognormal mad

14

Praktyczny przykład dla MCMC

Przechodziłem wykłady związane z MCMC. Nie znalazłem jednak dobrego przykładu tego, jak się go używa. Czy ktoś może dać mi konkretny przykład. Widzę tylko, że prowadzą łańcuch Markowa i mówią, że jego rozkład stacjonarny jest rozkładem pożądanym. Chcę dobrego przykładu, w którym trudno jest pobrać...

probability bayesian mcmc markov-process

14

Radzenie sobie z brakującymi danymi w modelu wygładzania wykładniczego

Wydaje się, że nie ma standardowego sposobu radzenia sobie z brakującymi danymi w kontekście rodziny modeli wygładzania wykładniczego. W szczególności implementacja R zwana ets w pakiecie prognozy wydaje się brać najdłuższą podsekwencję bez brakujących danych, a książka „Prognozowanie z...

time-series forecasting missing-data