Statystyki i duże zbiory danych

21
Wielokrotna imputacja i wybór modelu

Wielokrotna imputacja jest dość prosta, jeśli masz model liniowy a priori , który chcesz oszacować. Jednak rzeczy wydają się nieco trudniejsze, gdy faktycznie chcesz dokonać wyboru modelu (np. Znajdź „najlepszy” zestaw zmiennych predykcyjnych z większego zestawu zmiennych kandydujących - mam na...

21
Jaką funkcją może być jądro?

W kontekście uczenia maszynowego i rozpoznawania wzorców istnieje koncepcja o nazwie Kernel Trick . W obliczu problemów, w których jestem proszony o ustalenie, czy funkcja może być funkcją jądra, czy nie, co dokładnie należy zrobić? Czy powinienem najpierw sprawdzić, czy mają one postać trzech lub...

21
Wykrywanie wartości odstających w danych zliczania

Mam coś, co naiwnie uważałem za dość prosty problem, który polega na wykrywaniu wartości odstających dla wielu różnych zestawów danych zliczania. W szczególności chcę ustalić, czy jedna lub więcej wartości w serii danych zliczania jest wyższa lub niższa niż oczekiwano w stosunku do reszty zliczeń w...

21
Losowy las a regresja

Uruchomiłem model regresji OLS na zestawie danych z 5 niezależnymi zmiennymi. Zmienne niezależne i zmienne zależne są ciągłe i są liniowo powiązane. Kwadrat R wynosi około 99,3%. Ale kiedy uruchamiam to samo przy użyciu losowego lasu w R, mój wynik to „% Var wyjaśnił: 88.42”. Dlaczego losowy wynik...

21
Łączenie informacji z wielu badań w celu oszacowania średniej i wariancji normalnie rozłożonych danych - podejścia bayesowskie a metaanalityczne

Przejrzałem zestaw artykułów, z których każdy podaje obserwowaną średnią i SD pomiaru w odpowiedniej próbce o znanej wielkości, n . Chcę jak najlepiej zgadnąć, jaki jest prawdopodobny rozkład tej samej miary w nowym opracowaniu, które projektuję, i ile niepewności jest w tym przypuszczeniu. Z...