Statystyki i duże zbiory danych

15
Wizualizacja wyników modeli mieszanych

Jednym z problemów, które zawsze miałem z modelami mieszanymi, jest wymyślanie wizualizacji danych - takich, które mogłyby skończyć się na papierze lub plakacie - gdy tylko uzyska się wyniki. Obecnie pracuję nad modelem efektów mieszanych Poissona z formułą, która wygląda mniej więcej tak: a...

15
Losowy las jest przepełniony

Próbuję użyć losowej regresji leśnej w scikits-learn. Problem polega na tym, że otrzymuję naprawdę wysoki błąd testu: train MSE, 4.64, test MSE: 252.25. Tak wyglądają moje dane: (niebieski: dane rzeczywiste, zielony: przewidywane): Używam 90% na szkolenie i 10% na test. Oto kod, którego używam...

15
Dlaczego stabilizujemy wariancję?

Natknąłem się na transformację stabilizującą wariancję podczas czytania metody Kaggle Essay Eval . Używają transformacji stabilizacji wariancji, aby przekształcić wartości kappa przed pobraniem ich średniej, a następnie przekształcić je z powrotem. Nawet po przeczytaniu wiki o transformacjach...

15
Znaczenie terminów wyjściowych w pakiecie GBM?

Korzystam z pakietu GBM do klasyfikacji. Zgodnie z oczekiwaniami wyniki są dobre. Ale staram się zrozumieć wyniki klasyfikatora. W produkcji występuje pięć terminów. `Iter TrainDeviance ValidDeviance StepSize Improve` Czy ktoś mógłby wyjaśnić znaczenie każdego terminu, zwłaszcza znaczenie...

15
Porównanie list rankingowych

Załóżmy, że każda z dwóch grup, składająca się z i n 2, zajmuje zestaw 25 pozycji od najważniejszych do najmniej ważnych. Jakie są najlepsze sposoby na porównanie tych rankingów?n1n1n_1n2)n2n_2 Oczywiście możliwe jest wykonanie 25 testów U Manna-Whitneya, ale dałoby to 25 wyników testu do...