Pytania oznaczone «missing-data»

16

Jak uzupełnić brakujące dane w szeregach czasowych?

Mam duży zestaw danych o zanieczyszczeniach, które są rejestrowane co 10 minut w ciągu 2 lat, jednak istnieje wiele luk w danych (w tym niektóre, które pojawiają się przez kilka tygodni na raz). Dane wydają się dość sezonowe i istnieje duża zmienność w ciągu dnia w porównaniu do nocy, w której...

time-series missing-data data-imputation

16

Jak obliczyć średnią długość przylegania do wegetarianizmu, gdy mamy tylko dane ankietowe na temat aktualnych wegetarian?

Badano losową próbę populacji. Zapytano ich, czy jedzą dietę wegetariańską. Jeśli odpowiedzieli „tak”, poproszono ich również o określenie, jak długo bez przerwy je dietę wegetariańską. Chcę wykorzystać te dane do obliczenia średniej długości przestrzegania zasady wegetarianizmu. Innymi słowy,...

survival mean missing-data survey weighted-mean

15

Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji

Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <-

machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

15

Jaka intuicja kryje się za wymiennymi próbkami pod hipotezą zerową?

Testy permutacyjne (zwane również testem randomizacji, testem ponownej randomizacji lub testem dokładnym) są bardzo przydatne i przydają się, gdy t-testnie jest spełnione założenie o rozkładzie normalnym wymagane na przykład i gdy transformacja wartości przez ranking test nieparametryczny,...

hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

14

Radzenie sobie ze zbiorami danych o zmiennej liczbie funkcji

Jakie są metody klasyfikacji danych o zmiennej liczbie funkcji? Jako przykład rozważmy problem, w którym każdy punkt danych jest wektorem punktów xiy, a my nie mamy takiej samej liczby punktów dla każdej instancji. Czy możemy traktować każdą parę punktów xiy jako cechę? A może powinniśmy w jakiś...

machine-learning missing-data

14

Radzenie sobie z brakującymi danymi w modelu wygładzania wykładniczego

Wydaje się, że nie ma standardowego sposobu radzenia sobie z brakującymi danymi w kontekście rodziny modeli wygładzania wykładniczego. W szczególności implementacja R zwana ets w pakiecie prognozy wydaje się brać najdłuższą podsekwencję bez brakujących danych, a książka „Prognozowanie z...

time-series forecasting missing-data

14

Czy mogę zrekonstruować rozkład normalny na podstawie wielkości próbki oraz wartości minimalnych i maksymalnych? Mogę użyć punktu środkowego do określenia średniej

Wiem, że to może być trochę ryzykowne statystycznie, ale to mój problem. Mam wiele danych zakresu, to znaczy minimalną, maksymalną i wielkość próbki zmiennej. Dla niektórych z tych danych mam również średnią, ale nie wiele. Chcę porównać te zakresy ze sobą, aby obliczyć zmienność każdego zakresu,...

r normal-distribution estimation missing-data order-statistics

13

Odróżnianie brakujące losowo (MAR) od całkowicie brakującego losowo (MCAR)

Te dwa razy wyjaśniłem wiele razy. Nadal gotują mój mózg. Brakujące w losowo ma sens bycia, a brakujące całkowicie w losowym ma sens ... to brakujące w losowy sposób nie ma aż tak wielkiego znaczenia. Co powoduje powstanie danych, które byłyby MAR, ale nie

missing-data

13

Wielokrotna imputacja brakujących wartości

Chciałbym użyć imputacji do zastąpienia brakujących wartości w moim zbiorze danych z pewnymi ograniczeniami. Na przykład chciałbym, aby zmienna przypisana x1była większa lub równa sumie moich dwóch innych zmiennych, powiedzmy x2i x3. Chcę też x3zostać przypisany przez jeden 0lub >= 14i chcę...

r spss missing-data multiple-imputation

12

Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace =...

r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

12

Jak poradzić sobie z nieistniejącymi lub brakującymi danymi?

Próbowałem metody prognozowania i chcę sprawdzić, czy moja metoda jest poprawna, czy nie. Moje badanie porównuje różne rodzaje funduszy wspólnego inwestowania. Chcę użyć indeksu GCC jako punktu odniesienia dla jednego z nich, ale problem polega na tym, że indeks GCC zatrzymał się we wrześniu 2011...

time-series forecasting missing-data

12

Jak obsługiwać wartości NA metodą kurczliwości (Lasso) przy użyciu glmnet

Używam „glmnet” do regresji lasso w GWAS. Niektóre warianty i pojedyncze osoby mają brakujące wartości i wydaje się, że glmnet nie może obsłużyć brakujących wartości. Czy jest na to jakieś rozwiązanie? czy jest jakiś inny pakiet, który może obsłużyć brakujące wartości w regresji lasso? Oto moje...

missing-data lasso glmnet

12

Czy istnieje poważny problem z pomijaniem obserwacji z brakującymi wartościami podczas obliczania macierzy korelacji?

Mam ten ogromny zestaw danych z około 2500 zmiennymi i podobnymi 142 obserwacjami. Chcę uruchomić korelację między zmienną X a resztą zmiennych. Ale w wielu kolumnach brakuje wpisów. Próbowałem to zrobić w R za pomocą argumentu „pairwise-complete” ( use=pairwise.complete.obs) i uzyskałem wiązkę...

r correlation missing-data correlation-matrix

12

Jak radzić sobie z brakującymi danymi podczas korzystania z splajnów lub wielomianów ułamkowych?

Czytam Multivariable Model Building: Pragmatyczne podejście do analizy regresji w oparciu o ułamkowe wielomiany do modelowania zmiennych ciągłych przez Patrick Royston i Willie Sauerbrei. Jak dotąd jestem pod wrażeniem i jest to interesujące podejście, którego wcześniej nie rozważałem. Ale autorzy...

regression missing-data fractional-polynomial

12

STL w szeregach czasowych z brakującymi wartościami do wykrywania anomalii

Próbuję wykryć anomalne wartości w szeregu czasowym danych klimatycznych z pewnymi brakującymi obserwacjami. Przeszukując sieć znalazłem wiele dostępnych podejść. Spośród nich rozkład stl wydaje się atrakcyjny w sensie usunięcia trendów i składników sezonowych i przestudiowania reszty. Czytając...

r time-series outliers missing-data

12

80% brakujących danych w jednej zmiennej

W moich danych jest jedna zmienna, w której brakuje 80% danych. Brak danych z powodu nieistnienia (tj. Ile pożyczka bankowa jest winna firmie). Natknąłem się na artykuł, w którym wyjaśniono, że metoda dopasowania zmiennej zastępczej jest rozwiązaniem tego problemu. Czyli muszę przekształcić tę...

missing-data

12

XGBoost może obsłużyć brakujące dane w fazie prognozowania

Niedawno sprawdziłem algorytm XGBoost i zauważyłem, że ten algorytm może obsłużyć brakujące dane (bez konieczności przypisywania) w fazie szkolenia. Zastanawiałem się, czy XGboost może obsłużyć brakujące dane (bez konieczności imputacji), gdy jest używany do prognozowania nowych obserwacji, czy...

machine-learning missing-data data-imputation xgboost

12

Techniki postępowania z niekompletnymi / brakującymi danymi

Moje pytanie dotyczy technik radzenia sobie z niekompletnymi danymi podczas szkolenia / dopasowania / klasyfikacji klasyfikatora / modelu. Na przykład w zestawie danych zawierającym kilkaset wierszy, z których każdy ma powiedzmy pięć wymiarów i etykietę klasy jako ostatni element, większość...

missing-data

11

R / mgcv: Dlaczego produkty tensorowe te () i ti () wytwarzają różne powierzchnie?

mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2)...

r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

11

Jak obsługiwać nieistniejące (nie brakujące) dane?

Nigdy tak naprawdę nie znalazłem żadnego dobrego tekstu ani przykładów na temat obsługi „nieistniejących” danych dla danych wejściowych do dowolnego rodzaju klasyfikatora. Dużo czytałem o brakujących danych, ale co można zrobić z danymi, które nie mogą istnieć lub nie istnieją w odniesieniu do...

missing-data