Pytania oznaczone «missing-data»

16
Jak obliczyć średnią długość przylegania do wegetarianizmu, gdy mamy tylko dane ankietowe na temat aktualnych wegetarian?

Badano losową próbę populacji. Zapytano ich, czy jedzą dietę wegetariańską. Jeśli odpowiedzieli „tak”, poproszono ich również o określenie, jak długo bez przerwy je dietę wegetariańską. Chcę wykorzystać te dane do obliczenia średniej długości przestrzegania zasady wegetarianizmu. Innymi słowy,...

15
Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji

Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <-

15
Jaka intuicja kryje się za wymiennymi próbkami pod hipotezą zerową?

Testy permutacyjne (zwane również testem randomizacji, testem ponownej randomizacji lub testem dokładnym) są bardzo przydatne i przydają się, gdy t-testnie jest spełnione założenie o rozkładzie normalnym wymagane na przykład i gdy transformacja wartości przez ranking test nieparametryczny,...

14
Czy mogę zrekonstruować rozkład normalny na podstawie wielkości próbki oraz wartości minimalnych i maksymalnych? Mogę użyć punktu środkowego do określenia średniej

Wiem, że to może być trochę ryzykowne statystycznie, ale to mój problem. Mam wiele danych zakresu, to znaczy minimalną, maksymalną i wielkość próbki zmiennej. Dla niektórych z tych danych mam również średnią, ale nie wiele. Chcę porównać te zakresy ze sobą, aby obliczyć zmienność każdego zakresu,...

13
Wielokrotna imputacja brakujących wartości

Chciałbym użyć imputacji do zastąpienia brakujących wartości w moim zbiorze danych z pewnymi ograniczeniami. Na przykład chciałbym, aby zmienna przypisana x1była większa lub równa sumie moich dwóch innych zmiennych, powiedzmy x2i x3. Chcę też x3zostać przypisany przez jeden 0lub >= 14i chcę...

12
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace =...

12
80% brakujących danych w jednej zmiennej

W moich danych jest jedna zmienna, w której brakuje 80% danych. Brak danych z powodu nieistnienia (tj. Ile pożyczka bankowa jest winna firmie). Natknąłem się na artykuł, w którym wyjaśniono, że metoda dopasowania zmiennej zastępczej jest rozwiązaniem tego problemu. Czyli muszę przekształcić tę...

12
Techniki postępowania z niekompletnymi / brakującymi danymi

Moje pytanie dotyczy technik radzenia sobie z niekompletnymi danymi podczas szkolenia / dopasowania / klasyfikacji klasyfikatora / modelu. Na przykład w zestawie danych zawierającym kilkaset wierszy, z których każdy ma powiedzmy pięć wymiarów i etykietę klasy jako ostatni element, większość...

11
R / mgcv: Dlaczego produkty tensorowe te () i ti () wytwarzają różne powierzchnie?

mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2)...

11
Jak obsługiwać nieistniejące (nie brakujące) dane?

Nigdy tak naprawdę nie znalazłem żadnego dobrego tekstu ani przykładów na temat obsługi „nieistniejących” danych dla danych wejściowych do dowolnego rodzaju klasyfikatora. Dużo czytałem o brakujących danych, ale co można zrobić z danymi, które nie mogą istnieć lub nie istnieją w odniesieniu do...