Statystyki i duże zbiory danych

9

Gdzie mogę znaleźć zestawy danych przydatne do testowania własnych wdrożeń uczenia maszynowego? [Zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 6 lat temu . Obecnie próbuję samodzielnie wdrożyć niektóre...

dataset

9

Dynamiczne dostosowywanie architektury NN: wymyślanie niepotrzebnego?

Zaczynam od podróży doktorskiej, a ostatecznym celem, jaki sobie wyznaczyłem, jest opracowanie ANN, które monitorowałyby środowisko, w którym pracują, i dynamicznie dostosowywały swoją architekturę do problemu. Oczywistą konsekwencją jest czasowość danych: jeśli zbiór danych nie jest ciągły i nie...

machine-learning neural-networks

9

Wybór modelu i wydajność modelu w regresji logistycznej

Mam pytanie dotyczące wyboru modelu i wydajności modelu w regresji logistycznej. Mam trzy modele oparte na trzech różnych hipotezach. Pierwsze dwa modele (nazwijmy je z i x) mają tylko jedną zmienną objaśniającą w każdym modelu, a trzeci (nazwijmy to w) jest bardziej skomplikowany. Używam AIC do...

logistic model-selection cross-validation

9

Dlaczego zmienność jest ważnym tematem w ekonometrii finansowej?

Nie wiem, czy jest to całkowicie nie na temat, ale pomyślałem, że przydatne mogą być opinie i zbiorcza odpowiedź na temat tego, dlaczego zmienność jest ważnym tematem w ekonometrii finansowej. Myślę, że zaczęło się od teorii portfela i potrzeby zrozumienia właściwości leżącej u podstaw drugiej...

finance volatility-forecasting

9

Jakiego modelu można użyć w przypadku naruszenia założenia stałej wariancji?

Ponieważ nie możemy dopasować modelu ARIMA w przypadku naruszenia założenia stałej wariancji, jaki model można zastosować do dopasowania szeregów czasowych

time-series modeling forecasting arima

9

Parametryzacja rozkładów Behrensa – Fishera

„O problemie Behrensa – Fishera: przegląd” Seock-Ho Kim i Allena S. Cohena Journal of Educational and Behavioral Statistics , tom 23, nr 4, Winter, 1998, strony 356–377 Patrzę na to i mówi: Fisher (1935, 1939) wybrał statystykę [gdzie jest zwykłą -statystyczną próbką dla ] gdzie jest...

distributions parameterization fiducial

9

Jak porównać obserwowane i oczekiwane zdarzenia?

Załóżmy, że mam jedną próbkę częstotliwości 4 możliwych zdarzeń: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 i mam spodziewane prawdopodobieństwo wystąpienia moich zdarzeń: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dzięki sumie obserwowanych częstotliwości moich czterech zdarzeń (18) mogę obliczyć oczekiwane...

r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

9

"Od

Krótkie pytanie: dlaczego to prawda? Długie pytanie: Po prostu staram się dowiedzieć, co uzasadnia to pierwsze równanie. Autor książki, którą czytam (w kontekście , jeśli chcesz, ale niekoniecznie), twierdzi, co następuje: Z powodu założenia bliskiego gaussowskości możemy napisać:...

probability normal-distribution entropy maximum-entropy

9

Kontrolowanie częstotliwości fałszywych odkryć na etapach

Mam trójwymiarową tabelę o rozmiarze . Każda komórka tabeli jest testem hipotez. Krojenie tabeli w trzecim wymiarze daje zestawów testów hipotez, które są niezależne między zbiorami, ale zależą od nich. Początkowo myślałem, że mogę po prostu kontrolować współczynnik fałszywych odkryć za pomocą...

multiple-comparisons false-discovery-rate

9

Dlaczego ilość wariancji wyjaśniona przez mój pierwszy komputer jest tak bliska średniej korelacji par?

Jaki jest związek między pierwszymi głównymi komponentami i średnią korelacją w macierzy korelacji? Na przykład w aplikacji empirycznej obserwuję, że średnia korelacja jest prawie taka sama jak stosunek wariancji pierwszego głównego składnika (pierwszej wartości własnej) do całkowitej wariancji...

correlation pca mathematical-statistics eigenvalues

9

Jak korzystać z R gbm z dystrybucją = „adaboost”?

Dokumentacja mówi, że R gbm z rozkładem = "adaboost" może być użyty do problemu klasyfikacji 0-1. Rozważ następujący fragment kodu: gbm_algorithm <- gbm(y ~ ., data = train_dataset, distribution = "adaboost", n.trees = 5000) gbm_predicted <- predict(gbm_algorithm, test_dataset, n.trees =...

r gbm

9

Kiedy stosować regresję nieparametryczną?

Używam PROC GLM w SAS, aby dopasować równanie regresji o następującej formie Y=b0+b1X1+b2)X2)+b3)X3)+b4tY=b0+b1X1+b2)X2)+b3)X3)+b4t Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t Wykres QQ powstałych czerwonych reszt wskazuje na odchylenie od normalności. Jakakolwiek transformacja nie jest przydatna...

regression multiple-regression nonparametric residuals sas

9

Zastosowanie parametru Gamma w maszynach wektorów pomocniczych

Podczas używania libsvmparametr jest parametrem funkcji jądra. Jego domyślna wartość toγγ\gammaγ=1number of features.γ=1number of features.\gamma = \frac{1}{\text{number of features.}} Czy istnieją jakieś teoretyczne wskazówki dotyczące konfigurowania tego parametru oprócz istniejących metod, np....

machine-learning svm data-mining libsvm kernel-trick

9

Losowe zadanie: po co zawracać sobie głowę?

Losowe przydzielanie jest cenne, ponieważ zapewnia niezależność leczenia od potencjalnych wyników. W ten sposób prowadzi do obiektywnych oszacowań średniego efektu leczenia. Ale inne schematy przydziału mogą również systematycznie zapewniać niezależność leczenia od potencjalnych wyników. Dlaczego...

econometrics experiment-design causality instrumental-variables random-allocation

9

Rozkład błędów dla regresji liniowej i logistycznej

Przy ciągłych danych regresja liniowa zakłada, że termin błędu jest rozproszony N (0, )Y=β1+β2)X2)+ uY=β1+β2X2+uY=\beta_1+\beta_2X_2+uσ2)σ2\sigma^2 1) Czy zakładamy, że Var (Y | x) jest również ~ N (0, )?σ2)σ2\sigma^2 2) Czym jest ten rozkład błędów w regresji logistycznej? Gdy dane mają postać...

logistic generalized-linear-model

9

Przedziały ufności i prognozy modelu regresji liniowej

Okej, więc próbuję zrozumieć regresję liniową. Mam zestaw danych i wszystko wygląda całkiem dobrze, ale jestem zdezorientowany. Oto moje podsumowanie modelu liniowego: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.2068621 0.0247002 8.375 4.13e-09 *** temp 0.0031074...

r regression

9

Porównywanie współczynników zapadalności

Chcę porównać do częstości występowania między dwiema grupami (jedną bez choroby i drugą z). Planowałem obliczyć współczynnik częstości występowania (IRR), tj. Wskaźnik częstości występowania grupy B / wskaźnik częstości występowania grupy A, a następnie sprawdzić, czy wskaźnik ten wynosi 1, i na...

r poisson-distribution epidemiology incidence-rate-ratio

9

Problemy z obliczaniem, interpretacją podzestawów i ogólne pytania dotyczące procedury wyboru modelu

Chcę wybrać modele za pomocą regsubsets(). Mam ramkę danych o nazwie olympiadaten (dane przesłane: http://www.sendspace.com/file/8e27d0 ). Najpierw dołączam tę ramkę danych, a następnie zaczynam analizować, mój kod to: attach(olympiadaten) library(leaps) a<-regsubsets(Gesamt ~...

r multiple-regression model-selection

9

Odnośniki do statystyk dla osób dobrze zaznajomionych ze współczesną teorią prawdopodobieństwa

Biorąc pod uwagę rygorystyczne podstawy analizy i współczesną teorię prawdopodobieństwa, uważam, że statystyki bayesowskie są proste i łatwe do zrozumienia, a statystyki częstokrzyskie są niezwykle mylące i nieintuicyjne. Wydaje się, że częstokroć naprawdę robią statystyki bayesowskie, z wyjątkiem...

references frequentist intuition

9

Przedziały ufności a wielkość próby?

Jestem całkowicie nowy w statystykach i zakresie przedziałów ufności. Może to być bardzo trywialne lub nawet głupie. Byłbym wdzięczny, gdybyś mógł pomóc mi zrozumieć lub wskazać mi literaturę / tekst / blog, który wyjaśnia to lepiej. Widzę na różnych serwisach informacyjnych, takich jak CNN,...

confidence-interval sample-size