Statystyki i duże zbiory danych

18

Czy teoria szacowania obiektywnego wariancji minimalnej wariancji jest zbyt mocno podkreślana w szkołach wyższych?

Ostatnio byłem bardzo zawstydzony, kiedy podałem mankietową odpowiedź na temat obiektywnych oszacowań minimalnej wariancji dla parametrów rozkładu jednolitego, które były całkowicie błędne. Na szczęście natychmiast zostałem poprawiony przez kardynała i Henry'ego, a Henry podał prawidłowe odpowiedzi...

estimation point-estimation

18

Nieszablonowe opcje analizy danych

Używam SAS profesjonalnie od prawie 5 lat. Mam go zainstalowanego na swoim laptopie i często muszę analizować zestawy danych z 1000-2 000 zmiennych i setkami tysięcy obserwacji. Szukałem alternatyw dla SAS, które pozwalają mi przeprowadzać analizy zbiorów danych o podobnych rozmiarach. Jestem...

r sas large-data

18

, Symulacja w okresie prognozy

Mam dane szeregów czasowych i użyłem jako modelu do dopasowania danych. jest wskaźnikiem zmienną losową, która jest albo 0 (gdy nie widzę rzadkie zdarzenie) lub 1 (gdy widzę rzadkie zjawisko). W oparciu o wcześniejsze obserwacje, które mam dla , mogę opracować model dla przy użyciu metodologii...

time-series forecasting simulation

18

Dlaczego statystyki są przydatne, gdy wiele rzeczy, które mają znaczenie, to rzeczy w jednym ujęciu?

Nie wiem, czy to tylko ja, ale ogólnie jestem bardzo sceptyczny wobec statystyk. Rozumiem to w grach w kości, pokerze itp. Bardzo małe, proste, głównie samodzielne powtarzane gry są w porządku. Na przykład moneta lądująca na krawędzi jest wystarczająco mała, aby zaakceptować prawdopodobieństwo, że...

probability expected-value philosophical

18

Konstrukcja dystrybucji Dirichleta z dystrybucją Gamma

Niech X1,…,Xk+1X1,…,Xk+1X_1,\dots,X_{k+1} będą wzajemnie niezależnymi zmiennymi losowymi, z których każda ma rozkład gamma o parametrach αi,i=1,2,…,k+1αi,i=1,2,…,k+1\alpha_i,i=1,2,\dots,k+1 pokazują, że Yi=XiX1+⋯+Xk+1,i=1,…,kYi=XiX1+⋯+Xk+1,i=1,…,kY_i=\frac{X_i}{X_1+\cdots+X_{k+1}},i=1,\dots,k,...

self-study multivariate-analysis gamma-distribution dirichlet-distribution

18

Jak przewidzieć lub rozszerzyć linie regresji w ggplot2?

Mam ramkę danych, która zawiera dwie serie czasowe: daty i numery wersji wydań Emacs i Firefox. Za pomocą jednego polecenia ggplot2 łatwo jest utworzyć wykres, który używa less (w sposób, który wygląda nieco zabawnie, co nie mam nic przeciwko), aby zamieniać punkty w linie. Jak mogę przedłużyć...

prediction ggplot2

18

Jak radzić sobie z wysoką korelacją między predyktorami w regresji wielokrotnej?

Znalazłem odniesienie w artykule, który brzmi: Według Tabachnick i Fidell (1996) zmienne niezależne o korelacji dwuwymiarowej większej niż 0,70 nie powinny być uwzględniane w analizie regresji wielokrotnej. Problem: Użyłem w układzie regresji wielokrotnej 3 zmiennych skorelowanych> .80, VIF...

correlation multiple-regression multicollinearity partial-correlation

18

Okresy w historii statystyki

Historię wielu dziedzin nauki można podzielić na niewielką liczbę przedziałów czasowych, które często zaczynają się od ważnego odkrycia. Ale nigdy nie widziałem czegoś podobnego na osi czasu statystyki. Oczywiście istnieje kilka ważnych dat, które można uznać za punkty wyjścia nowego okresu...

history

18

Dlaczego mój R-kwadrat jest tak niski, skoro moje statystyki t są tak duże?

Przeprowadziłem regresję z 4 zmiennymi i wszystkie są bardzo istotne statystycznie, z wartościami T ≈7,9,26≈7,9,26\approx 7,9,26 i 313131 (mówię ≈≈\approx ponieważ uwzględnienie ułamków dziesiętnych wydaje się nieistotne), które są bardzo wysokie i wyraźnie znaczące. Ale wtedy R2R2R^2 jest tylko...

regression hypothesis-testing econometrics

18

Dlaczego nie używamy cyfr znaczących?

Masz pojęcie, dlaczego nie używamy znaczących cyfr w statystykach? Coś w tym stylu używamy szacunków, więc zasady dotyczące precyzji nie mają

reporting

18

Krzyżowa walidacja i dostrajanie parametrów

Czy ktoś może mi powiedzieć, co dokładnie daje wynik analizy krzyżowej? Czy to tylko średnia dokładność, czy daje jakiś model z dostrojonymi parametrami? Ponieważ słyszałem gdzieś, że do dostrajania parametrów używana jest walidacja

cross-validation

18

Czym skrajny losowy las różni się od losowego lasu?

Czy ER jest bardziej wydajne w realizacji (może Extreme Gradient Boostingto być zwiększenie gradientu) - czy różnica jest ważna z praktycznego punktu widzenia? Istnieje pakiet R, który je implementuje. Czy to nowy algorytm, który pokonuje implementację „ogólną” (pakiet RandomForest od R) nie tylko...

r machine-learning algorithms random-forest

18

Podstawowe pytania dotyczące dyskretnej analizy przeżycia czasowego

Próbuję przeprowadzić dyskretną analizę przeżycia czasowego przy użyciu modelu regresji logistycznej i nie jestem pewien, czy całkowicie rozumiem ten proces. Byłbym bardzo wdzięczny za pomoc w kilku podstawowych pytaniach. Oto konfiguracja: Patrzę na członkostwo w grupie w ciągu pięciu lat. Każdy...

survival discrete-data hazard kaplan-meier

18

Centralne twierdzenie graniczne i prawo wielkich liczb

Mam pytanie od bardzo początkującego dotyczące centralnego twierdzenia granicznego (CLT): Wiem, że CLT stwierdza, że średnia iid zmiennych losowych ma w przybliżeniu rozkład normalny (dla , gdzie n jest indeksem sum) lub że znormalizowana zmienna losowa miałaby standardowy rozkład normalny.n →...

probability normal-distribution convergence central-limit-theorem law-of-large-numbers

18

Macierz wariancji-kowariancji w lmer

Wiem, że jedną z zalet modeli mieszanych jest to, że pozwalają one określić macierz wariancji-kowariancji dla danych (symetria złożona, autoregresja, nieustrukturyzowana itp.). Jednak lmerfunkcja w R nie pozwala na łatwą specyfikację tej macierzy. Czy ktoś wie, która struktura lmerużywa domyślnie i...

r mixed-model lme4-nlme covariance-matrix

18

Dlaczego matryca Fisher Information jest pozytywnie półfinałowa?

Niech . Matrycę informacji Fisher definiuje się jako:θ∈Rnθ∈Rn\theta \in R^{n} I(θ)i,j=−E[∂2log(f(X|θ))∂θi∂θj∣∣∣θ]I(θ)i,j=−E[∂2log⁡(f(X|θ))∂θi∂θj|θ]I(\theta)_{i,j} = -E\left[\frac{\partial^{2} \log(f(X|\theta))}{\partial \theta_{i} \partial \theta_{j}}\bigg|\theta\right] Jak mogę udowodnić, że...

inference linear-algebra fisher-information

18

Wizualne wykreślanie wielowymiarowych danych klastra

Mam zestaw danych z 16 zmiennymi i po zgrupowaniu według kmeans chcę wykreślić dwie grupy. Jakie wykresy sugerujesz, aby wizualnie przedstawić dwa

data-visualization clustering k-means

18

Jak radzić sobie z maszyną SVM z atrybutami kategorialnymi

Mam przestrzeń 35 wymiarów (atrybutów). Mój problem analityczny jest prosty. Spośród 35 wymiarów ponad 25 ma charakter kategoryczny, a każdy atrybut przyjmuje ponad 50 typów wartości. W tym scenariuszu wprowadzenie zmiennej zastępczej również nie będzie dla mnie działać. Jak mogę uruchomić SVM...

categorical-data svm

18

Duża różnica zdań w oszacowaniu nachylenia, gdy grupy są traktowane jako losowe vs. ustalone w modelu mieszanym

Rozumiem, że używamy modeli efektów losowych (lub efektów mieszanych), gdy uważamy, że niektóre parametry modelu zmieniają się losowo w zależności od czynnika grupującego. Chcę dopasować model, w którym odpowiedź została znormalizowana i wyśrodkowana (nie idealnie, ale całkiem blisko) w obrębie...

mixed-model random-effects-model fixed-effects-model lme4-nlme intraclass-correlation

18

użycie ciężarów w svyglm vs glm

Chciałbym wiedzieć, jak różni się sposób traktowania ciężarów między svyglmiglm Używam twangpakietu w R do tworzenia ocen skłonności, które są następnie używane jako wagi, w następujący sposób (ten kod pochodzi z

r survey