Statystyki i duże zbiory danych

9
Wybór klastrów dla k-średnich: przypadek 1 klastra

Czy ktoś zna dobrą metodę ustalenia, czy klastrowanie przy użyciu kmeans jest w ogóle odpowiednie? To znaczy, co jeśli twoja próbka jest rzeczywiście jednorodna? Wiem, że model mieszanki (za pośrednictwem mclust w R) zapewni statystyki dopasowania dla przypadku klastra 1: k, ale wydaje się, że...

9
Wzór Doane'a na binowanie histogramów

Wdrażam różne algorytmy, aby oszacować najlepszą liczbę pojemników do użycia w histogramach. Większość z tych, które wdrażam, opisano na stronie „Histogram” w Wikipedii w sekcji „ Liczba pojemników i szerokość ” *. Utknąłem na problem z formułą Doane'a: 1 + log(n) + log(1 + kurtosis(data) *...

9
Solidne oszacowanie średnie z wydajnością aktualizacji O (1)

Szukam dokładnego oszacowania średniej, która ma określoną właściwość. Mam zestaw elementów, dla których chcę obliczyć tę statystykę. Następnie dodaję nowe elementy pojedynczo i dla każdego dodatkowego elementu chciałbym ponownie obliczyć statystyki (znane również jako algorytm online). Chciałbym,...

9
Sumy kwadratów typu III

Muszę modelu regresji liniowej z jednym skategoryzowany (mężczyzn i kobiet), a jeden bezstopniowej .AAABBB Skonfigurowałem kody kontrastowe w R z options(contrasts=c("contr.sum","contr.poly")). A teraz mam sumy kwadratów typu III dla , B i ich interakcji (A: B) za pomocą .AAABBBdrop1(model, .~.,...

9
Twierdzenie Gaussa-Markowa: NIEBIESKI i OLS

Czytam o twierdzeniu Guassa-Markowa na wikipedii i miałem nadzieję, że ktoś może mi pomóc ustalić główny punkt tego twierdzenia. Zakładamy, że model liniowy w postaci macierzy podaje: i szukamy NIEBIESKIEGO, .y= Xβ+ ηy=Xβ+η y = X\beta +\eta βˆβ^ \widehat\beta Zgodnie z tym , to, że etykieta...