Statystyki i duże zbiory danych

12
t.test zwraca błąd „dane są zasadniczo stałe”

R version 3.1.1 (2014-07-10) -- "Sock it to Me" > bl <- c(140, 138, 150, 148, 135) > fu <- c(138, 136, 148, 146, 133) > t.test(fu, bl, alternative = "two.sided", paired = TRUE) Error in t.test.default(fu, bl, alternative = "two.sided", paired = TRUE) : data are essentially...

12
Dobra forma do usuwania wartości odstających?

Pracuję nad statystykami dla kompilacji oprogramowania. Mam dane dla każdego kompilacji na pass / fail i upływający czas i generujemy ~ 200 z nich / tydzień. Wskaźnik skuteczności można łatwo agregować, mogę powiedzieć, że 45% minęło w danym tygodniu. Ale chciałbym również zsumować upływający czas...

12
Jak znaleźć przedział prognozy GBM

Pracuję z modelami GBM przy użyciu pakietu Caret i szukam metody rozwiązania przedziałów prognoz dla moich przewidywanych danych. Szukałem obszernie, ale wpadłem tylko na kilka pomysłów, aby znaleźć przedziały prognoz dla Losowego Lasu. Każdy kod pomocy / R byłby bardzo mile...

12
Normy Ridge i LASSO

Ten post jest następujący: dlaczego oszacowanie grzbietu staje się lepsze niż OLS poprzez dodanie stałej do przekątnej? Oto moje pytanie: O ile mi wiadomo, w regularyzacji grzbietu stosuje się -norm (odległość euklidesowa). Ale dlaczego używamy kwadratu tej normy? (bezpośrednie zastosowanie...

12
Jakie są popularne opcje wizualizacji danych 4-wymiarowych?

Powiedzmy, że mam następujące czterowymiarowe dane, w których pierwsze trzy można uznać za współrzędne, a ostatnie za wartości. c1, c2, c3, value 1, 2, 6, 0.456 34, 34, 12 0.27 12, 1, 66 0.95 Jak lepiej zobrazować wpływ pierwszych trzech współrzędnych na ostatnią wartość? Mam świadomość trzech...