Statystyki i duże zbiory danych

14
Dlaczego mieliby tutaj wybrać rozkład gamma?

W jednym z ćwiczeń na moim kursie korzystamy z medycznego zestawu danych Kaggle . Ćwiczenie mówi: chcemy modelować rozkład poszczególnych ładunków, a także naprawdę chcieć uchwycić naszą niepewność co do tego rozkładu, abyśmy mogli lepiej uchwycić zakres wartości, które możemy zobaczyć....

13
Kiedy używać wielu modeli do prognozowania?

To jest dość ogólne pytanie: Zazwyczaj stwierdziłem, że użycie wielu różnych modeli przewyższa jeden model, gdy próbuję przewidzieć szereg czasowy na podstawie próby. Czy są jakieś dobre dokumenty, które pokazują, że kombinacja modeli przewyższy pojedynczy model? Czy istnieją jakieś najlepsze...

13
Najlepsze sposoby na agregację i analizę danych

Niedawno zacząłem uczyć się uczenia maszynowego i analizy danych. Uderzam w ścianę z powodu potrzeby tworzenia i wyszukiwania dużych zestawów danych. Chciałbym pobrać dane, które gromadzę w życiu zawodowym i osobistym, i przeanalizować je, ale nie jestem pewien, jak najlepiej wykonać następujące...

13
Oprogramowanie do anonimizacji danych

Zablokowana . To pytanie i odpowiedzi są zablokowane, ponieważ pytanie jest nie na temat, ale ma znaczenie historyczne. Obecnie nie akceptuje nowych odpowiedzi ani interakcji. Czy ktoś wie o dobrym oprogramowaniu do anonimizacji danych? A może pakiet dla R, który

13
Liniowe modele efektów mieszanych

Często słyszałem, że modele LME są bardziej wiarygodne w analizie danych dokładności (tj. W eksperymentach psychologicznych), ponieważ mogą pracować z rozkładami dwumianowymi i innymi niestandardowymi rozkładami, których tradycyjne podejścia (np. ANOVA) nie mogą. Jakie są matematyczne podstawy...

13
Oddzielenie dwóch populacji od próbki

Próbuję oddzielić dwie grupy wartości od jednego zestawu danych. Mogę założyć, że jedna z populacji jest normalnie rozmieszczona i ma co najmniej połowę wielkości próbki. Wartości drugiego są zarówno niższe, jak i wyższe niż wartości pierwszego (rozkład jest nieznany). Staram się znaleźć górne i...

13
Dwupróbkowy test T z ważonymi danymi

Chcę wykonać test T z dwiema próbkami, aby sprawdzić różnicę między dwiema niezależnymi próbkami, z których każda próbka spełnia założenia testu T (można założyć, że każdy rozkład jest niezależny i identycznie rozłożony jak normalny z jednakową wariancją) . Jedyną komplikacją wynikającą z...

13
Jaki jest rozkład OR (iloraz szans)?

Mam kilka artykułów prezentujących „OR” z przedziałem ufności 95% (przedziały ufności). Chcę oszacować na podstawie artykułów wartość P dla obserwowanego OR. W tym celu potrzebuję założenia dotyczącego rozkładu sali operacyjnej. Jaką dystrybucję mogę bezpiecznie założyć /...