Statystyki i duże zbiory danych

12
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace =...

12
Czy można oceniać GLM w Python / scikit-learn przy użyciu rozkładów Poissona, Gammy lub Tweedie jako rodziny dla rozkładu błędów?

Próbuję nauczyć się języka Python i Sklearn, ale do mojej pracy muszę uruchomić regresje, które wykorzystują rozkłady błędów z rodzin Poissona, Gammy, a zwłaszcza Tweediego. Nie widzę nic w dokumentacji na ich temat, ale są one w kilku częściach dystrybucji R, więc zastanawiałem się, czy ktoś...

12
Wykładnicza górna granica

Załóżmy, że mamy losowe zmienne IID z rozkładem . Będziemy obserwować próbkę „s w następujący sposób: niech być niezależny zmiennymi losowymi, załóżmy, że wszystkie ” S i „s są niezależne i określają wielkość próby . W „s wskazują, które z ” s są w próbce, i chcemy studiować część sukcesów w próbce...

12
Pomysł tworzenia danych ma wartość zero

Często widzę ludzi, którzy określają wymiar / cechę zestawu danych jako zero-średnią poprzez usunięcie średniej ze wszystkich elementów. Ale nigdy nie rozumiałem, dlaczego to robić? Jaki jest efekt robienia tego jako etapu wstępnego przetwarzania? Czy poprawia to klasyfikację? Czy pomaga...

12
Pojęcie wyników analizy mediacji w R.

Próbuję obejść pakiet mediacyjny w języku R, używając winiety dla pakietu. Próbuję zrozumieć wynik działania tej mediate()funkcji. require("mediation") require("sandwich") data("framing") med.fit <- lm(emo ~ treat + age + educ + gender + income, data = framing) out.fit <- glm(cong_mesg ~...

12
Jakiego testu statystycznego użyć do testu A / B?

Mamy dwie kohorty po 1000 próbek każda. Mierzymy 2 wielkości dla każdej kohorty. Pierwszy to zmienna binarna. Druga to liczba rzeczywista, która następuje po rozkładzie ciężkiego ogona. Chcemy ocenić, która grupa najlepiej sprawdza się w przypadku każdej metryki. Do wyboru jest wiele testów...