Statystyki i duże zbiory danych

31
Wizualizacja miliona edycji PCA

Czy możliwe jest zwizualizowanie wyników analizy głównych składników w sposób zapewniający lepszy wgląd niż tylko tabele podsumowań? Czy można to zrobić, gdy liczba obserwacji jest duża, powiedzmy ~ 1e4? I czy można to zrobić w R [mile widziane inne

31
Wariancja iloczynu zmiennych zależnych

Jaki jest wzór na wariancję iloczynu zmiennych zależnych? W przypadku zmiennych niezależnych formuła jest prosta: v a r (XY) = E( X2)Y2)) - E( XY)2)= v a r ( X) v a r ( Y) + v a r ( X) E( Y)2)+ v a r ( Y) E( X)2)var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) =...

31
Dlaczego konieczny jest wybór zmiennych?

Typowe procedury wyboru zmiennych oparte na danych (na przykład do przodu, do tyłu, krokowo, wszystkie podzbiory) mają tendencję do uzyskiwania modeli o niepożądanych właściwościach, w tym: Współczynniki odchylone od zera. Błędy standardowe, które są zbyt małe, a przedziały ufności, które są zbyt...

31
format danych libsvm [zamknięte]

Korzystam z narzędzia libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) do klasyfikacji wektora wsparcia. Jestem jednak zdezorientowany co do formatu danych wejściowych. Z README: Format pliku danych szkoleniowych i testowych to: <label> <index1>:<value1>...