Statystyki i duże zbiory danych

12

Dlaczego nie zawsze używać elementów CI bootstrap?

Zastanawiałem się, jak CI bootstrap (i BCa w układzie dwubiegunowym) działają na normalnie dystrybuowanych danych. Wydaje się, że dużo pracy analizuje ich wydajność w różnych typach dystrybucji, ale nie można znaleźć niczego w normalnie dystrybuowanych danych. Ponieważ najpierw wydaje się rzeczą...

12

Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace =...

r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

12

Czy można oceniać GLM w Python / scikit-learn przy użyciu rozkładów Poissona, Gammy lub Tweedie jako rodziny dla rozkładu błędów?

Próbuję nauczyć się języka Python i Sklearn, ale do mojej pracy muszę uruchomić regresje, które wykorzystują rozkłady błędów z rodzin Poissona, Gammy, a zwłaszcza Tweediego. Nie widzę nic w dokumentacji na ich temat, ale są one w kilku częściach dystrybucji R, więc zastanawiałem się, czy ktoś...

generalized-linear-model python scikit-learn gradient-descent tweedie-distribution

12

Co powoduje wzór w kształcie litery U w korelogramie przestrzennym?

Zauważyłem we własnej pracy ten wzór podczas badania korelogramu przestrzennego w różnych odległościach, w którym pojawia się wzór w kształcie litery U w korelacjach. Mówiąc dokładniej, silne dodatnie korelacje w małych przedziałach odległości zmniejszają się wraz z odległością, a następnie...

autocorrelation spatial

12

Jak znormalizować dane o nieznanej dystrybucji

Staram się znaleźć najbardziej odpowiedni charakterystyczny rozkład danych z powtarzanych pomiarów określonego rodzaju. Zasadniczo w mojej gałęzi geologii często używamy datowania radiometrycznego minerałów z próbek (kawałków skały), aby dowiedzieć się, jak dawno temu wydarzenie miało miejsce...

distributions normal-distribution normalization histogram

12

Jakie są warunki prawidłowości testu ilorazu wiarygodności

Czy ktoś mógłby mi powiedzieć, jakie są warunki prawidłowości dla asymptotycznego rozkładu testu ilorazu wiarygodności? Gdziekolwiek spojrzę, jest napisane „W warunkach prawidłowości” lub „Zgodnie z probabilistycznymi prawidłowościami”. Jakie są dokładnie warunki? Czy istnieją pierwsze i drugie...

maximum-likelihood likelihood-ratio asymptotics

12

Na czym polega problem ze stosowaniem modeli R-kwadrat w szeregach czasowych?

Czytałem, że użycie kwadratu R do szeregów czasowych nie jest właściwe, ponieważ w kontekście szeregów czasowych (wiem, że istnieją inne konteksty) kwadrat R nie jest już unikalny. Dlaczego to? Próbowałem to sprawdzić, ale nic nie znalazłem. Zazwyczaj nie przykładam dużej wartości do kwadratu R...

regression time-series r-squared

12

Kroki wykonane w analizie czynnikowej w porównaniu do kroków wykonanych w PCA

Wiem, jak wykonać PCA (analiza głównego składnika), ale chciałbym poznać kroki, które należy zastosować do analizy czynnikowej. Aby wykonać PCA, rozważmy macierz , na przykład:AAA 3 1 -1 2 4 0 4 -2 -5 11 22 20 Obliczyłem jej macierz korelacji B = corr(A): 1.0000 0.9087 0.9250 0.9087...

pca factor-analysis algorithms

12

Czy normalnie rozłożone X i Y częściej powodują powstanie resztek normalnie rozłożonych?

W tym miejscu omawiana jest błędna interpretacja założenia normalności w regresji liniowej (że „normalność” odnosi się do X i / lub Y zamiast do reszt), a plakat pyta, czy możliwe jest uzyskanie nietypowo rozłożonych X i Y i nadal mają normalnie rozłożone resztki. Moje pytanie brzmi: czy zwykle...

regression normal-distribution data-transformation residuals assumptions

12

Nieparametryczna miara siły powiązania między porządkową i ciągłą zmienną losową

Rzucam tutaj problem tak, jak go otrzymałem. Mam dwie zmienne losowe. Jeden z nich jest ciągły (Y), a drugi dyskretny i zostanie przyjęty jako porządkowy (X). Umieściłem poniżej wątku, który otrzymałem wraz z zapytaniem. Osoba, która przesłała mi dane, chce zmierzyć siłę powiązania między X i...

correlation nonparametric ordinal-data association-measure

12

Wykładnicza górna granica

Załóżmy, że mamy losowe zmienne IID z rozkładem . Będziemy obserwować próbkę „s w następujący sposób: niech być niezależny zmiennymi losowymi, załóżmy, że wszystkie ” S i „s są niezależne i określają wielkość próby . W „s wskazują, które z ” s są w próbce, i chcemy studiować część sukcesów w próbce...

probability-inequalities

12

Czy niewłaściwe jest używanie wykresów liniowych do dyskretnych danych?

Często widziałem dyskretne zestawy danych wykreślane jako wykresy liniowe, ale przychodzi mi do głowy, że linia wyznacza wartość w punkcie między przedziałami pomiarowymi, co nie ma znaczenia dla dyskretnych zestawów danych. Czy w takim przypadku użycie wykresów liniowych dla danych dyskretnych...

data-visualization

12

Różnica między seriami z dryfem a seriami z trendem

Serię ze znoszeniem można modelować jako gdzie jest znoszeniem (stałym), a . yt= c + ϕ yt - 1+ εtyt=c+ϕyt−1+εty_t = c + \phi y_{t-1} + \varepsilon_tdoccϕ = 1ϕ=1\phi=1 Szereg z trendem można modelować jako gdzie jest dryftem (stałym), jest deterministycznym trendem czasowym, a .yt= c + δt + ϕ yt -...

time-series hypothesis-testing stationarity trend unit-root

12

Jaki jest najlepszy sposób na Przekształcenie / Restrukturyzację danych?

Jestem asystentem naukowym w laboratorium (wolontariusz). Ja i mała grupa zlecono mi analizę danych dla zestawu danych pobranych z dużego badania. Niestety dane zostały zebrane za pomocą jakiejś aplikacji online i nie została zaprogramowana do wyświetlania danych w najbardziej użytecznej formie....

r excel data-cleaning

12

Pomysł tworzenia danych ma wartość zero

Często widzę ludzi, którzy określają wymiar / cechę zestawu danych jako zero-średnią poprzez usunięcie średniej ze wszystkich elementów. Ale nigdy nie rozumiałem, dlaczego to robić? Jaki jest efekt robienia tego jako etapu wstępnego przetwarzania? Czy poprawia to klasyfikację? Czy pomaga...

data-mining dataset

12

Jak używać auto.arima do przypisania brakujących wartości

Mam serię zoo z wieloma brakującymi wartościami. Czytałem, że auto.arimamożna przypisać te brakujące wartości? Czy ktoś może mnie nauczyć, jak to zrobić? wielkie dzięki! Próbowałem tego, ale bez powodzenia: fit <-

arima

12

Pojęcie wyników analizy mediacji w R.

Próbuję obejść pakiet mediacyjny w języku R, używając winiety dla pakietu. Próbuję zrozumieć wynik działania tej mediate()funkcji. require("mediation") require("sandwich") data("framing") med.fit <- lm(emo ~ treat + age + educ + gender + income, data = framing) out.fit <- glm(cong_mesg ~...

r mediation

12

Jakiego testu statystycznego użyć do testu A / B?

Mamy dwie kohorty po 1000 próbek każda. Mierzymy 2 wielkości dla każdej kohorty. Pierwszy to zmienna binarna. Druga to liczba rzeczywista, która następuje po rozkładzie ciężkiego ogona. Chcemy ocenić, która grupa najlepiej sprawdza się w przypadku każdej metryki. Do wyboru jest wiele testów...

ab-test

12

Czy w stacjonarnej serii trendów można modelować ARIMA?

Mam pytanie / zamieszanie dotyczące stacjonarnych serii wymaganych do modelowania za pomocą ARIMA (X). Myślę o tym bardziej w kategoriach wnioskowania (efekt interwencji), ale chciałbym wiedzieć, czy prognozowanie kontra wnioskowanie ma jakikolwiek wpływ na odpowiedź. Pytanie: Wszystkie wstępne...

time-series econometrics arima inference

12

Co oznacza „krzywoliniowy”?

O ile wiem, krzywoliniowa jest zdefiniowana niejasno, ale oznacza to samo co nieliniowa . Czy to jest poprawne? Czy też krzywoliniowa ma wyraźną

linear-model nonlinear-regression terminology definition