Pytania oznaczone «dataset»

Żądania dotyczące zestawów danych są w tej witrynie nie na temat. Użyj tego znacznika do pytań dotyczących tworzenia, przetwarzania lub utrzymywania zestawów danych.

93
Niezbędne testy sprawdzające dane

W swojej roli zawodowej często pracuję z zestawami danych innych osób, nie-eksperci dostarczają mi dane kliniczne i pomagam im je podsumować i przeprowadzić testy statystyczne. Problem, który mam, polega na tym, że zestawy danych, które przynoszę, są prawie zawsze pełne literówek, niespójności i...

46
Interpretacja predyktora i / lub odpowiedzi transformowanej logarytmicznie

Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne. Rozważ przypadek log(DV) = Intercept + B1*IV + Error Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam log(DV)...

30
Wizualizacja skrzyżowań wielu zbiorów

Czy istnieje model wizualizacji, który jest dobry do pokazywania nakładania się przecięcia wielu zbiorów? Myślę o czymś takim jak diagramy Venna, ale to może jakoś lepiej nadawać się do większej liczby zestawów, takich jak 10 lub więcej. Wikipedia pokazuje kilka wyższych zestawów diagramów Venna,...

29
Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

28
Obliczanie powtarzalności efektów z modelu Lmer

Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...

27
Czy stopnie swobody mogą być liczbą niecałkowitą?

Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...