Statystyki i duże zbiory danych

42

Jaki algorytm stosuje się w regresji liniowej?

Zwykle słyszę o „zwykłych najmniejszych kwadratach”. Czy to najczęściej stosowany algorytm regresji liniowej? Czy istnieją powody, by użyć

42

Jak unieruchomić szereg czasowy?

Oprócz różnic, jakie są inne techniki tworzenia niestacjonarnych szeregów czasowych, stacjonarnych? Zwykle jeden odnosi się do szeregu jako „ zintegrowany rzędu p ”, jeśli można go unieruchomić za pomocą operatora opóźnienia .( 1 - L )P.Xt(1−L)PXt(1-L)^P

time-series stationarity

42

Jak przeprowadzić wykrywanie społeczności w ważonej sieci / wykresie społecznościowym?

Zastanawiam się, czy ktoś mógłby zasugerować, jakie są dobre punkty wyjścia, jeśli chodzi o wykrywanie społeczności / partycjonowanie / grupowanie wykresów na wykresie z ważonymi , nieukierunkowanymi krawędziami. Wykres ma około 3 miliony krawędzi, a każda krawędź wyraża stopień podobieństwa między...

clustering data-visualization networks partitioning modularity

42

Jak sprawić, by ludzie lepiej dbali o dane?

Moje miejsce pracy ma pracowników z bardzo różnych dziedzin, więc generujemy dane w wielu różnych formach. W związku z tym każdy zespół opracował własny system przechowywania danych. Niektórzy korzystają z baz danych Access lub SQL; niektóre zespoły (ku mojemu przerażeniu) polegają prawie...

dataset reproducible-research quality-control

42

Przedział ufności dla próbkowania Bernoulliego

Mam losową próbkę losowych zmiennych Bernoulliego , gdzie X i oznaczają iidrv, a P ( X i = 1 ) = p , a p jest nieznanym parametrem.X1. . . XN.X1...XNX_1 ... X_NXjaXiX_iP.( Xja= 1 ) = pP(Xi=1)=pP(X_i = 1) = pppp Oczywiście, można znaleźć oszacowanie : p : = ( X 1 + ⋯ + X N ) / N .pppp^: = ( X1+ ⋯ +...

confidence-interval binomial bernoulli-distribution

42

Jakie jest znaczenie współczynników regresji logistycznej?

Obecnie czytam artykuł na temat miejsca głosowania i preferencji głosowania w wyborach w 2000 i 2004 roku. Na nim znajduje się wykres przedstawiający współczynniki regresji logistycznej. Z kursów sprzed lat i trochę czytania, Rozumiem regresję logistyczną jako sposób opisania związku między wieloma...

regression logistic interpretation

42

Jaka jest funkcja celu PCA?

Analiza głównych składników może wykorzystywać rozkład macierzy, ale to tylko narzędzie, aby się tam dostać. Jak znalazłbyś główne składniki bez użycia algebry macierzowej? Jaka jest funkcja celu (cel) i jakie są

pca

42

Czym jest zakłopotanie?

Natknąłem się na termin zakłopotanie, które odnosi się do uśrednionego logarytmicznie odwrotnego prawdopodobieństwa na niewidzialnych danych. Artykuł Wikipedii na temat zakłopotania nie nadaje temu samemu intuicyjnego znaczenia. Tę miarę zakłopotania wykorzystano w pracy pLSA . Czy ktoś może...

measurement perplexity

42

Czy uczenie maszynowe jest mniej przydatne do zrozumienia związku przyczynowego, a tym samym mniej interesujące dla nauk społecznych?

Rozumiem różnicę między uczeniem maszynowym / innymi statystycznymi technikami predykcyjnymi a rodzajem statystyk, które stosują naukowcy społeczni (np. Ekonomiści), że ekonomiści wydają się bardzo zainteresowani zrozumieniem efektu jednej lub kilku zmiennych - zarówno pod względem wielkość i...

machine-learning econometrics

42

Regresja Poissona w celu oszacowania względnego ryzyka wyników binarnych

Krótkie podsumowanie Dlaczego regresja logistyczna (z ilorazami szans) jest częściej stosowana w badaniach kohortowych z wynikami binarnymi, w przeciwieństwie do regresji Poissona (z względnym ryzykiem)? tło Z mojego doświadczenia wynika, że statystyki licencjackie i magisterskie oraz kursy...

logistic poisson-distribution epidemiology odds-ratio relative-risk

42

Różne sposoby pisania warunków interakcji w lm?

Mam pytanie, w jaki sposób najlepiej określić interakcję w modelu regresji. Rozważ następujące dane: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, 1L, 1L, 1L,...

r regression interaction

42

Regresja wyniku (stosunek lub ułamek) między 0 a 1

Mam na myśli zbudowanie modelu przewidującego stosunek , gdzie a ≤ b oraz a > 0 i b > 0 . Tak więc stosunek wynosiłby od 0 do 1 .a / ba/ba/ba ≤ ba≤ba \le ba > 0a>0a > 0b > 0b>0b > 0000111 Mógłbym użyć regresji liniowej, chociaż nie ogranicza się ona naturalnie do 0..1. Nie mam...

regression logistic generalized-linear-model beta-distribution beta-regression

42

Jak interpretować wagi funkcji SVM?

Próbuję zinterpretować zmienne wagi podane przez dopasowanie liniowego SVM. (Używam scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Nie mogę znaleźć w dokumentacji niczego, co wyraźnie określa sposób obliczania lub interpretowania...

svm feature-selection python scikit-learn

42

Jaka jest różnica między GARCH a ARMA?

Jestem zdezorientowany. Nie rozumiem różnicy między ARiMR a procesem GARCH .. dla mnie są takie same nie? Oto proces (G) ARCH (p, q) σ2)t= α0+ ∑i = 1qαjar2)t - iA R CH.+ ∑i = 1pβjaσ2)t - iG A R...

arima garch finance

42

Biorąc pod uwagę oczekiwania związane z serią Taylor (szczególnie pozostała część)

Moje pytanie dotyczy próby uzasadnienia powszechnie stosowanej metody, a mianowicie przyjęcia oczekiwanej wartości Taylor Series. Załóżmy, że mamy losową zmienną o dodatniej średniej i wariancji . Dodatkowo mamy funkcję, powiedzmy, .XXXμμ\muσ2σ2\sigma^2log(x)log⁡(x)\log(x) Po rozszerzeniu Taylora...

self-study mathematical-statistics expected-value

42

Jak wizualizować dopasowany model regresji wielokrotnej?

Obecnie piszę artykuł z kilkoma analizami wielu regresji. Podczas gdy wizualizacja jednoczynnikowej regresji liniowej jest łatwa za pomocą wykresów rozrzutu, zastanawiałem się, czy istnieje jakiś dobry sposób na wizualizację wielu regresji liniowych? Obecnie rysuję wykresy punktowe, takie jak...

regression data-visualization multiple-regression

42

Dlaczego średnio każda próbka bootstrap zawiera około dwie trzecie obserwacji?

Mam natknąć się na twierdzeniu, że każda próbka bootstrap (lub workach drzewa) będą zawierały średnio około 2/32/32/3 z obserwacjami. I zrozumieć, że prawdopodobieństwo nie wybiera się w jednym z nnn czerpie nnn próbek z wymianą jest (1−1/n)n(1−1/n)n(1- 1/n)^n , co przekłada się na około 1/31/31/3...

bootstrap

42

Dlaczego Random Forest nie obsługuje brakujących wartości w predyktorach?

Jakie są teoretyczne powody, aby nie obsługiwać brakujących wartości? Maszyny zwiększające gradient, drzewa regresji radzą sobie z brakującymi wartościami. Dlaczego Random Forest tego nie

random-forest missing-data gbm

42

Korelacje między zmiennymi ciągłymi a jakościowymi (nominalnymi)

Chciałbym znaleźć korelację między zmienną ciągłą (zmienną zależną) a zmienną kategorialną (nominalna: płeć, zmienna niezależna). Dane ciągłe nie są zwykle dystrybuowane. Przedtem miałem obliczony go używając Spearmana . Powiedziano mi jednak, że to nie w porządku.ρρ\rho Podczas wyszukiwania w...

correlation categorical-data descriptive-statistics biostatistics spearman-rho

42

Czy sensowne jest obliczenie korelacji Pearsona lub Spearmana między dwoma wektorami boolowskimi?

Istnieją dwa wektory logiczne, które zawierają tylko 0 i 1. Jeśli obliczę korelację Pearsona lub Spearmana, czy są one sensowne czy

correlation binary-data pearson-r spearman-rho