Pytania oznaczone «multiple-imputation»

Imputacja wieloczynnikowa odnosi się do zestawu procedur imputacji stochastycznych, których celem jest zachowanie wielowymiarowych cech danych

29
R: Losowy las wyrzucający NaN / Inf w błędzie „wywołanie funkcji zagranicznej” pomimo braku NaN w zbiorze danych [zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo...

29
Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

21
Wielokrotna imputacja i wybór modelu

Wielokrotna imputacja jest dość prosta, jeśli masz model liniowy a priori , który chcesz oszacować. Jednak rzeczy wydają się nieco trudniejsze, gdy faktycznie chcesz dokonać wyboru modelu (np. Znajdź „najlepszy” zestaw zmiennych predykcyjnych z większego zestawu zmiennych kandydujących - mam na...

13
Wielokrotna imputacja brakujących wartości

Chciałbym użyć imputacji do zastąpienia brakujących wartości w moim zbiorze danych z pewnymi ograniczeniami. Na przykład chciałbym, aby zmienna przypisana x1była większa lub równa sumie moich dwóch innych zmiennych, powiedzmy x2i x3. Chcę też x3zostać przypisany przez jeden 0lub >= 14i chcę...

12
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace =...

9
Jak poprawić czas działania imputacji danych R MICE

Moje pytanie w skrócie: czy istnieją metody poprawy czasu działania R MICE (imputacja danych)? Pracuję z zestawem danych (30 zmiennych, 1,3 miliona wierszy), który zawiera (dość losowo) brakujące dane. Około 8% obserwacji w około 15 z 30 zmiennych zawiera NA. Aby przypisać brakujące dane,...