Statystyki i duże zbiory danych

9

Czy istnieje nazwa dla tego typu ładowania początkowego?

Rozważ eksperyment z wieloma ludzkimi uczestnikami, z których każdy jest mierzony wiele razy w dwóch warunkach. Model efektów mieszanych można sformułować (używając składni lme4 ) jako: fit = lmer( formula = measure ~ (1|participant) + condition ) Powiedzmy, że chcę wygenerować przedziały...

mixed-model bootstrap

9

Czy istnieje prosty sposób na połączenie dwóch modeli GLM w R?

Mam dwa modele regresji logistycznej w R wykonane glm(). Oba używają tych samych zmiennych, ale zostały wykonane przy użyciu różnych podzbiorów macierzy. Czy istnieje prosty sposób na uzyskanie średniego modelu, który podaje średnie współczynników, a następnie użycie go z funkcją predykcji...

r generalized-linear-model

9

W R jak mogę odwoływać \ wyszukiwanie w pliku cdf standardowej tabeli normalnej dystrybucji?

Zablokowana . To pytanie i odpowiedzi są zablokowane, ponieważ pytanie jest nie na temat, ale ma znaczenie historyczne. Obecnie nie akceptuje nowych odpowiedzi ani interakcji. Zakładam, że R ma to wbudowane. Jak się do tego

r normal-distribution

9

Czy źle jest wstrząsać przed wykonaniem testu Wilcoxona?

Napisałem skrypt testujący dane przy użyciu wilcox.test, ale kiedy otrzymałem wyniki, wszystkie wartości p były równe 1. Czytam na niektórych stronach internetowych, że możesz użyć jittera przed przetestowaniem danych (aby uniknąć powiązań, jak powiedzieli), Zrobiłem to i teraz mam akceptowalny...

r nonparametric ties

9

Czy istnieje odpowiednik ARiMR dla korelacji rang?

Patrzę na wyjątkowo nieliniowe dane, dla których modele ARMA / ARIMA nie działają dobrze. Chociaż widzę trochę autokorelacji i podejrzewam, że mam lepsze wyniki dla nieliniowej autokorelacji. 1 / czy istnieje odpowiednik PACF dla korelacji rang? (w R?) 2 / czy istnieje odpowiednik modelu ARMA dla...

r correlation nonparametric garch arma

9

Jak właściwie zastosować walidację krzyżową w kontekście wyboru parametrów uczenia się dla maszyn wektorów wsparcia?

Wspaniały pakiet libsvm zawiera interfejs Pythona i plik „easy.py”, który automatycznie wyszukuje parametry uczenia się (koszt i gamma), które maksymalizują dokładność klasyfikatora. W obrębie danego zestawu parametrów uczenia się kandydata dokładność jest operacjonalizowana przez krzyżową...

cross-validation svm

9

Jakie jest prawdopodobieństwo, że bukmacher źle wycenia kursy na mecze piłki nożnej?

Angielska drużyna piłkarska rozgrywa serię meczów z różnymi przeciwnikami o różnych umiejętnościach. Bukmacher oferuje kursy na każdy mecz, czy będzie to zwycięstwo gospodarzy, gości na wyjeździe czy remis. W połowie sezonu drużyna rozegrała meczów i zremisowała z nich, co jest więcej niż można się...

probability games gambling

9

Istotność statystyczna zmian w czasie dla 5-punktowej pozycji Likerta

Kontekst: Mam dwa zestawy danych z tego samego kwestionariusza przeprowadzonego przez dwa lata. Każde pytanie mierzone jest za pomocą 5-stopniowej skali. Q1: Schemat kodowania W tej chwili zakodowałem swoje odpowiedzi w przedziale [0, 1], gdzie 0 oznacza „najbardziej negatywną odpowiedź”, 1...

statistical-significance likert

9

Jak obliczyć przedziały ufności dla połączonych wskaźników nieparzystych w metaanalizie?

Mam dwa zestawy danych z badań asocjacyjnych całego genomu. Jedynymi dostępnymi informacjami są współczynniki nieparzyste i przedziały ufności (95%) dla każdego genotypowanego SNP. Chcę wygenerować działkę leśną porównującą te dwa współczynniki szans, ale nie mogę znaleźć sposobu na obliczenie...

confidence-interval meta-analysis genetics odds-ratio

9

Jak mogę ocenić dopasowanie GEE / modelu logistycznego, gdy zmienne towarzyszące zawierają braki danych?

Do moich danych dopasowałem dwa uogólnione modele równań szacunkowych (GEE): 1) Model 1: Wynik jest zmienną podłużną Tak / Nie (A) (rok 1,2,3,4,5) z podłużnym ciągłym predyktorem (B) dla lat 1,2,3,4,5. 2) Model 2: Wynik jest tą samą podłużną zmienną Tak / Nie (A), ale teraz z moim predyktorem...

logistic gee

9

Traktowanie poziomów zmiennych kategorialnych „Nie wiem / Odmówiono”

Modeluję prognozę cukrzycy za pomocą regresji logistycznej. Wykorzystanym zestawem danych jest behawioralny system monitorowania czynników ryzyka (BRFSS) Centrum Kontroli Chorób (CDC). Jedną z niezależnych zmiennych jest wysokie ciśnienie krwi. Jest podzielony na kategorie z następującymi...

logistic missing-data

9

Jak przeprowadzić wiele testów chi-kwadrat post-hoc na stole 2 X 3?

Mój zestaw danych obejmuje zarówno całkowitą śmiertelność, jak i przeżycie organizmu w trzech typach miejsc: przybrzeżnym, śródokanałowym i przybrzeżnym. Liczby w poniższej tabeli reprezentują liczbę witryn. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Chciałbym...

logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

9

Klastry zajmujące mało miejsca

Większość algorytmów grupowania, jakie widziałem, zaczyna się od tworzenia odległości między poszczególnymi punktami, co staje się problematyczne w przypadku większych zestawów danych. Czy jest taki, który tego nie robi? Czy może jest to podejście częściowe / przybliżone / naprzemienne? Który...

clustering algorithms large-data

9

Analityczne rozwiązanie szacunków współczynnika regresji liniowej

Próbuję zrozumieć notację macierzową i pracuję z wektorami i macierzami. W tej chwili chciałbym zrozumieć, jak obliczany jest wektor współczynników szacunkowych w regresji wielokrotnej.β^β^\hat{\beta} Wydaje się, że podstawowe równanie

regression

9

Cykl w algorytmie k-średnich

Według wiki najczęściej stosowanym kryterium konwergencji jest „przypisanie się nie zmieniło”. Zastanawiałem się, czy może wystąpić cykl, jeśli zastosujemy takie kryterium konwergencji? Byłbym zadowolony, gdyby ktokolwiek wskazał odniesienie do artykułu, który podaje przykład jazdy na rowerze lub...

clustering algorithms k-means

9

Jak interpretować wyniki redukcji wymiarowości / skalowania wielowymiarowego?

Przeprowadziłem zarówno dekompozycję SVD, jak i wielowymiarowe skalowanie 6-wymiarowej macierzy danych, aby lepiej zrozumieć strukturę danych. Niestety, wszystkie wartości w liczbie pojedynczej są tego samego rzędu, co oznacza, że wymiarowość danych rzeczywiście wynosi 6. Chciałbym jednak móc...

pca interpretation dimensionality-reduction svd

9

Losowy test permutacji do wyboru funkcji

Jestem zdezorientowany co do analizy permutacji przy wyborze funkcji w kontekście regresji logistycznej. Czy możesz podać jasne wyjaśnienie losowego testu permutacji i jak ma on zastosowanie do wyboru funkcji? Prawdopodobnie z dokładnym algorytmem i przykładami. Wreszcie, jak to porównać z innymi...

regression logistic feature-selection permutation-test shrinkage

9

Automatyczne określanie progu dla wykrywania anomalii

Pracuję z szeregiem czasowym wyników anomalii (tłem jest wykrywanie anomalii w sieciach komputerowych). Co minutę otrzymuję wynik anomalii który mówi mi, jak „nieoczekiwany” lub nienormalny jest obecny stan sieci. Im wyższy wynik, tym bardziej nienormalny jest obecny stan. Wyniki bliskie 5 są...

time-series outliers threshold

9

Zalety podejścia do problemu poprzez sformułowanie funkcji kosztu, którą można zoptymalizować globalnie

To dość ogólne pytanie (tj. Niekoniecznie specyficzne dla statystyki), ale zauważyłem trend w uczeniu maszynowym i literaturze statystycznej, w którym autorzy wolą stosować następujące podejście: Podejście 1 : uzyskanie rozwiązania praktycznego problemu poprzez sformułowanie funkcji kosztu, dla...

optimization function

9

Dystrybucja „niezmieszanych” części na podstawie kolejności mieszania

Załóżmy, że mam sparowane obserwacje, takie jak dla . Niech i oznaczają od p największa obserwowana wartość . Jaka jest (warunkowa) dystrybucja ? (lub równoważnie z )Xi∼N(0,σ2x),Yi∼N(0,σ2y),Xi∼N(0,σx2),Yi∼N(0,σy2),X_i \sim \mathcal{N}\left(0,\sigma_x^2\right), Y_i \sim...

distributions order-statistics shrinkage