Statystyki i duże zbiory danych

12
Obliczanie trybu danych próbkowanych z ciągłego rozkładu

Jakie są najlepsze metody dopasowania „trybu” danych próbkowanych z ciągłego rozkładu? Ponieważ tryb jest technicznie niezdefiniowany (prawda?) Dla ciągłej dystrybucji, naprawdę pytam „jak znaleźć najczęstszą wartość”? Jeśli przyjmiesz, że rozkład rodzica jest gaussowski, możesz bin binować dane...

12
Czy losowe lasy wykazują tendencyjne prognozy?

Myślę, że jest to proste pytanie, chociaż uzasadnienie dlaczego lub dlaczego nie może być. Powodem, dla którego pytam, jest to, że niedawno napisałem własną implementację RF i chociaż działa on dobrze, nie działa tak dobrze, jak się spodziewałem (na podstawie zestawu danych konkursowych Kaggle...