Statystyki i duże zbiory danych

13
Szacowanie online kwartyli bez przechowywania obserwacji

Muszę obliczyć kwartyle (Q1, mediana i Q3) w czasie rzeczywistym na dużym zestawie danych bez zapisywania obserwacji. Najpierw wypróbowałem algorytm P-kwadrat (Jain / Chlamtac), ale nie byłem z niego zadowolony (nieco za dużo procesora i nie przekonałem się precyzją przynajmniej w moim zestawie...

13
Integracja empirycznego CDF

Mam rozkład empiryczny . Obliczam to w następujący sposóbG(x)G(x)G(x) x <- seq(0, 1000, 0.1) g <- ecdf(var1) G <- g(x) Mam na myśli , tzn. to pdf, a to cdf.h Gh(x)=dG/dxh(x)=dG/dxh(x) = dG/dxhhhGGG Chcę teraz rozwiązać równanie dla górnej granicy całkowania (powiedzmy ), tak że...

13
Dlaczego nie zawsze korzystać z nauki zespołowej?

Wydaje mi się, że uczenie się w zespole zawsze da lepsze wyniki predykcyjne niż w przypadku jednej hipotezy uczenia się. Dlaczego więc nie używamy ich przez cały czas? Sądzę, że powodem są być może ograniczenia obliczeniowe? (nawet wtedy używamy słabych predyktorów, więc nie...

13
Jak scharakteryzować nagłą zmianę?

To pytanie może być zbyt proste. Jeśli chodzi o tymczasowy trend danych, chciałbym dowiedzieć się, w którym momencie następuje „nagła” zmiana. Na przykład na pierwszym rysunku pokazanym poniżej chciałbym znaleźć punkt zmiany za pomocą metody statystycznej. I chciałbym zastosować taką metodę w...