Statystyki i duże zbiory danych

18
Zmienna ważność od GLMNET

Patrzę na użycie lasso jako metody wybierania cech i dopasowywania modelu predykcyjnego do celu binarnego. Poniżej znajduje się kod, z którym bawiłem się, aby wypróbować metodę ze znormalizowaną regresją logistyczną. Moje pytanie brzmi: otrzymuję grupę „znaczących” zmiennych, ale czy jestem w...

18
Klasyfikacja tekstu na dużą skalę

Chcę dokonać klasyfikacji na podstawie moich danych tekstowych. Mam 300 classes200 dokumentów szkoleniowych na klasę (więc 60000 documents in total), co może skutkować bardzo wysokimi wymiarami danych (być może szukamy ponad 1 milion wymiarów ). Chciałbym wykonać następujące kroki w przygotowaniu...

18
Wąski przedział ufności - większa dokładność?

Mam dwa pytania dotyczące przedziałów ufności: Najwyraźniej wąski przedział ufności oznacza, że ​​istnieje mniejsza szansa na uzyskanie obserwacji w tym przedziale, dlatego nasza dokładność jest wyższa. Również przedział ufności 95% jest węższy niż przedział ufności 99%, który jest...

18
Losowy spacer z pędem

Rozważ losową liczbę całkowitą rozpoczynającą się od 0 z następującymi warunkami: Pierwszy krok to plus lub minus 1, z jednakowym prawdopodobieństwem. Każdy przyszły krok to: 60% prawdopodobnie będzie w tym samym kierunku co poprzedni krok, 40% prawdopodobnie będzie w przeciwnym kierunku...

18
Jak działa test chi-kwadrat Pearsona

Po ostatnim głosowaniu w dół próbowałem sprawdzić swoje zrozumienie testu Pearson Chi Squared. Zwykle używam statystyki chi kwadrat (lub zredukowanej statystyki chi kwadrat) do dopasowania lub sprawdzenia wynikowego dopasowania. W tym przypadku wariancja nie jest zwykle oczekiwaną liczbą zliczeń w...

18
Jak interpretować współczynniki z regresji logistycznej?

Mam następującą funkcję prawdopodobieństwa: Prob=11+e−zProb=11+e−z\text{Prob} = \frac{1}{1 + e^{-z}} gdzie z=B0+B1X1+⋯+BnXn.z=B0+B1X1+⋯+BnXn.z = B_0 + B_1X_1 + \dots + B_nX_n. Mój model wygląda Pr(Y=1)=11+exp(−[−3.92+0.014×(gender)])Pr(Y=1)=11+exp⁡(−[−3.92+0.014×(gender)])\Pr(Y=1) = \frac{1}{1...