Statystyki i duże zbiory danych

29

Pseudo-R2 Interpretacja McFaddena

Mam binarny model regresji logistycznej z pseudo-kwadratem McFaddena wynoszącym 0,192 ze zmienną zależną o nazwie płatność (1 = płatność i 0 = brak płatności). Jaka jest interpretacja tego pseudo R-kwadrat? Czy jest to porównanie względne dla modeli zagnieżdżonych (np. Model 6 zmiennych ma pseudo...

regression self-study logistic

29

Czy ANOVA może być znacząca, gdy nie występuje żaden z testów t-par?

Czy jest możliwe, aby jednokierunkowa (z N>2N>2N>2 grupami lub „poziomami”) ANOVA zgłosiła znaczącą różnicę, gdy żaden z t-testów N.( N- 1 ) / 2N.(N.-1)/2)N(N-1)/2 nie robi tego? W tej odpowiedzi @whuber napisał: Dobrze wiadomo, że globalny test ANOVA F może wykryć różnicę średnich, nawet...

statistical-significance anova t-test post-hoc

29

Dlaczego AUC jest wyższy dla klasyfikatora, który jest mniej dokładny niż dla bardziej dokładnego?

Mam dwa klasyfikatory Odp .: naiwna sieć bayesowska B: drzewo (pojedynczo połączona) sieć bayesowska Pod względem dokładności i innych miar A wykonuje się stosunkowo gorzej niż B. Jednak gdy używam pakietów R ROCR i AUC do wykonania analizy ROC, okazuje się, że AUC dla A jest wyższe niż AUC dla...

machine-learning classification roc auc bayesian-network

29

Dlaczego mój interwał ładowania jest tak zły?

Chciałem zrobić demonstrację klasową, w której porównuję przedział t z przedziałem ładowania początkowego i obliczę prawdopodobieństwo pokrycia obu. Chciałem, aby dane pochodziły z przekrzywionej dystrybucji, więc postanowiłem wygenerować dane jako exp(rnorm(10, 0, 2)) + 1próbkę o wielkości 10 z...

bootstrap diagnostic

29

Dowód, że współczynniki w modelu OLS są zgodne z rozkładem t z (nk) stopniami swobody

tło Załóżmy, że mamy model zwykłych najmniejszych kwadratów, w którym mamy współczynniki w naszym modelu regresji, kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} gdzie to wektor współczynników , to macierz projektowa zdefiniowana

regression linear-model least-squares t-distribution

29

Dlaczego warto stosować stratyfikację krzyżową? Dlaczego nie wpływa to na korzyści związane z wariancją?

Powiedziano mi, że korzystne jest stosowanie warstwowej weryfikacji krzyżowej, zwłaszcza gdy klasy odpowiedzi są niezrównoważone. Jeśli jednym z celów walidacji krzyżowej jest pomoc w rozliczeniu losowości naszej oryginalnej próbki danych treningowych, na pewno sprawienie, by każda zakładka miała...

cross-validation resampling stratification

29

co oznaczają liczby w raporcie klasyfikacyjnym sklearn?

Mam poniżej przykład, który wyciągnąłem ze sklearn.metrics.classification_report dokumentacji sklearn. Nie rozumiem, dlaczego istnieją wartości f1-score, precyzja i przywołanie dla każdej klasy, w której moim zdaniem klasa jest etykietą predyktora? Myślałem, że wynik f1 mówi o ogólnej dokładności...

machine-learning python scikit-learn precision-recall

29

Jak dobrze ładowanie początkowe przybliża rozkład próbkowania estymatora?

Studiując ostatnio bootstrap, wpadłem na pytanie koncepcyjne, które wciąż mnie zastanawia: Masz populację i chcesz poznać atrybut populacji, tj. , gdzie używam do reprezentowania populacji. Ta może być średnia populacja np. Zwykle nie można uzyskać wszystkich danych z populacji. Narysuj więc...

bootstrap simulation resampling

29

Gdzie jest teoria grafów w modelach graficznych?

Wprowadzenie do modeli graficznych opisuje je jako „... połączenie teorii grafów z teorią prawdopodobieństwa”. Rozumiem część teorii prawdopodobieństwa, ale mam problem ze zrozumieniem, gdzie dokładnie pasuje teoria grafów. Jakie spostrzeżenia z teorii grafów pomogły nam pogłębić nasze rozumienie...

graphical-model graph-theory distributions

29

R: Losowy las wyrzucający NaN / Inf w błędzie „wywołanie funkcji zagranicznej” pomimo braku NaN w zbiorze danych [zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo...

r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

29

Dlaczego musimy znormalizować obrazy przed umieszczeniem ich w CNN?

Nie jestem jasne, dlaczego znormalizowaliśmy obraz dla CNN o (image - mean_image)?

deep-learning conv-neural-network image-processing

29

Dlaczego w sieciach neuronowych wykorzystywane są węzły stronniczości?

Dlaczego w sieciach neuronowych wykorzystywane są węzły stronniczości? Ile powinieneś użyć? Na jakich warstwach należy ich użyć: wszystkie ukryte warstwy i warstwa

machine-learning neural-networks bias-node

29

Jakiego rodzaju informacjami są informacje Fishera?

Załóżmy, że mamy losową zmienną . Jeśli jest parametrem prawdziwym, funkcja prawdopodobieństwa powinna być zmaksymalizowana, a pochodna równa zero. Jest to podstawowa zasada leżąca u podstaw estymatora maksymalnego prawdopodobieństwa.X∼ f( x | θ )X∼f(x|θ)X \sim f(x|\theta)θ0θ0\theta_0 Jak...

bayesian maximum-likelihood likelihood intuition fisher-information

29

Metody statystyczne dla danych, w których znana jest tylko wartość minimalna / maksymalna

Czy istnieje gałąź statystyki, która zajmuje się danymi, dla których dokładne wartości nie są znane , ale dla każdej osoby znamy maksymalne lub minimalne ograniczenie do wartości ? Podejrzewam, że mój problem wynika w dużej mierze z tego, że staram się go wyrazić statystycznie, ale mam nadzieję,...

biostatistics population bounds interval-censoring

29

Regresja do średniej vs błąd gracza

Z jednej strony mam regres do średniej, az drugiej strony błędność hazardzisty . Błąd Hazarda jest zdefiniowany przez Millera i Sanjurjo (2019) jako „błędne przekonanie, że losowe sekwencje mają systematyczną tendencję do odwracania, tj. Że smugi podobnych wyników są bardziej prawdopodobne, że...

regression mean fallacy gambling

29

Czy istnieje wyjaśnienie, dlaczego istnieje tak wiele zjawisk naturalnych, które następują po normalnym rozkładzie?

Myślę, że to fascynujący temat i nie do końca go rozumiem. Jakie prawo fizyki sprawia, że tak wiele zjawisk naturalnych ma rozkład normalny? Wydaje się bardziej intuicyjne, że mieliby jednolity rozkład. Tak trudno mi to zrozumieć i czuję, że brakuje mi niektórych informacji. Czy ktoś może mi...

distributions normal-distribution normality-assumption uniform

29

Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

29

Czy czasopismo Science poparło analizę Garden of Forking Pathes Analyzes?

Idea adaptacyjnej analizy danych polega na tym, że zmieniasz swój plan analizowania danych, gdy dowiadujesz się więcej na ten temat. W przypadku eksploracyjnej analizy danych (EDA) jest to ogólnie dobry pomysł (często szukasz nieprzewidzianych wzorców w danych), ale w przypadku badania...

hypothesis-testing overfitting eda out-of-sample differential-privacy

29

Interwał przewidywania ładowania początkowego

Czy jest dostępna technika ładowania początkowego do obliczania przedziałów predykcji dla prognoz punktowych uzyskanych np. Z regresji liniowej lub innej metody regresji (k-najbliższy sąsiad, drzewa regresji itp.)? Jakoś wydaje mi się, że czasami proponowanym sposobem, aby po prostu wyrzucić...

bootstrap prediction-interval

29

Kiedy powinienem bilansować klasy w zbiorze danych treningowych?

Miałem kurs online, w którym dowiedziałem się, że niezrównoważone klasy w danych treningowych mogą prowadzić do problemów, ponieważ algorytmy klasyfikacji są zgodne z regułą większości, ponieważ dają dobre wyniki, jeśli niezrównoważenie jest zbyt duże. W zadaniu należało zrównoważyć dane poprzez...

machine-learning classification unbalanced-classes