Statystyki i duże zbiory danych

16

Dlaczego „zrelaksowane lasso” różni się od standardowego lasso?

Jeśli zaczniemy od zestawu danych , zastosujemy do niego Lasso i uzyskamy rozwiązanie β L , możemy ponownie zastosować Lasso do zbioru danych ( X S , Y ) , gdzie S jest zbiorem niezerowym indeksy β L , aby uzyskać rozwiązanie β R L , zwane „zrelaksowanym rozwiązaniem LASSO” (poprawcie mnie, jeśli...

16

Jaki byłby przykład naprawdę prostego modelu o niewiarygodnym prawdopodobieństwie?

Przybliżone obliczenia bayesowskie to naprawdę fajna technika dopasowania w zasadzie dowolnego modelu stochastycznego, przeznaczona dla modeli, w których prawdopodobieństwo jest trudne (powiedzmy, możesz próbkować z modelu, jeśli naprawisz parametry, ale nie możesz obliczyć prawdopodobieństwa...

bayesian simulation model likelihood abc

16

liczba map obiektów w splotowych sieciach neuronowych

Ucząc się splotowej sieci neuronowej, mam pytania dotyczące poniższego rysunku. 1) C1 w warstwie 1 ma 6 map obiektów, czy to oznacza, że istnieje sześć zwojów splotowych? Każde jądro splotowe służy do generowania mapy obiektów na podstawie danych wejściowych. 2) S1 w warstwie 2 ma 6 map...

machine-learning neural-networks deep-learning pattern-recognition conv-neural-network

16

Dlaczego miałoby się stosować „losowe” zaufanie lub wiarygodne przedziały?

Czytałem ostatnio artykuł, który zawierał przypadkowość w jego pewności i wiarygodnych odstępach czasu i zastanawiałem się, czy jest to standard (a jeśli tak, to dlaczego warto to robić). Aby ustawić notację, załóżmy, że nasze dane to i jesteśmy zainteresowani tworzeniem przedziałów dla parametru ....

confidence-interval credible-interval

16

Dla jakich rozkładów istnieje niezależny estymator zamknięty dla odchylenia standardowego?

Dla rozkładu normalnego istnieje obiektywny estymator odchylenia standardowego podany przez: σ^unbiased=Γ(n−12)Γ(n2)12∑k=1n(xi−x¯)2−−−−−−−−−−−−√σ^unbiased=Γ(n−12)Γ(n2)12∑k=1n(xi−x¯)2\hat{\sigma}_\text{unbiased} = \frac{\Gamma(\frac{n-1}{2})}{\Gamma(\frac{n}{2})}...

mathematical-statistics standard-deviation unbiased-estimator

16

Dlaczego wystarczająca statystyka zawiera wszystkie informacje potrzebne do obliczenia oszacowania parametru?

Właśnie zacząłem studiować statystyki i nie mogę intuicyjnie zrozumieć wystarczalności. Mówiąc ściślej, nie rozumiem, jak pokazać, że następujące dwa akapity są równoważne: Z grubsza, biorąc pod uwagę zestaw X niezależnych identycznie rozmieszczonych danych uwarunkowanych nieznanym parametrem θ,...

sufficient-statistics

16

Test post-hoc dla testu dopasowania chi-kwadrat

Przeprowadzam test dobroci dopasowania chi-kwadrat (GOF) z trzema kategoriami i szczególnie chcę przetestować zero, że proporcje populacji w każdej kategorii są równe (tj. Proporcja wynosi 1/3 w każdej grupie): OBSERWOWANE DANE Grupa 1 Grupa 2 Grupa 3 Ogółem 686928...

hypothesis-testing chi-squared goodness-of-fit post-hoc

16

Co to jest „częściowe” w metodach częściowego najmniejszego kwadratu?

W częściowej regresji najmniejszych kwadratów (PLSR) lub częściowym modelowaniu równań strukturalnych najmniejszych kwadratów (PLS-SEM), do czego odnosi się termin

multiple-regression least-squares terminology sem partial-least-squares

16

Czy komponenty PCA wielowymiarowych danych Gaussa są statystycznie niezależne?

Czy komponenty PCA (w analizie głównych komponentów) są statystycznie niezależne, jeśli nasze dane są zwykle dystrybuowane na wielu odmianach? Jeśli tak, jak można to wykazać / udowodnić? Pytam, ponieważ widziałem ten post , w którym pierwsza odpowiedź brzmi: PCA nie przyjmuje wyraźnego...

pca independence svd

16

tanh vs. sigmoid w sieci neuronowej

Z góry przepraszam za to, że wciąż przyspieszam. Próbuję zrozumieć zalety i wady używania tanh (mapa -1 do 1) vs. sigmoid (mapa 0 do 1) dla mojej funkcji aktywacji neuronu. Z mojego czytania zabrzmiało to jak drobna rzecz z marginalnymi różnicami. W praktyce dla moich problemów uważam, że sigmoid...

neural-networks

16

Funkcja ETS (), jak uniknąć prognozy niezgodnej z danymi historycznymi?

Pracuję nad alogorytmem w R, aby zautomatyzować miesięczne obliczanie prognozy. Korzystam między innymi z funkcji ets () z pakietu prognozy do obliczania prognozy. Działa bardzo dobrze. Niestety, dla niektórych konkretnych szeregów czasowych wynik, który otrzymuję jest dziwny. Poniżej znajduje...

r time-series forecasting exponential-smoothing

16

Różnica między statsmodel OLS a regresją liniową scikit

Mam pytanie dotyczące dwóch różnych metod z różnych bibliotek, które wydają się wykonywać tę samą pracę. Próbuję stworzyć model regresji liniowej. Oto kod, który używam biblioteki statsmodel z OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3,...

regression python scikit-learn statsmodels

16

Czym dokładnie jest dystrybucja?

Bardzo mało wiem na temat prawdopodobieństwa i statystyki i chcę się uczyć. Widzę słowo „dystrybucja” używane wszędzie w różnych kontekstach. Na przykład dyskretna zmienna losowa ma „rozkład prawdopodobieństwa”. Wiem co to jest. Ciągła zmienna losowa ma funkcję gęstości prawdopodobieństwa, a zatem...

distributions definition

16

Integracja Metropolis-Hastings - dlaczego moja strategia nie działa?

Załóżmy, że mam funkcję , którą chcę zintegrować Oczywiście przy założeniu, że osiąga zero w punktach końcowych, brak wybuchów, fajna funkcja. Jednym ze sposobów, w jakie się bawiłem, jest użycie algorytmu Metropolis-Hastings do wygenerowania listy próbek z rozkładu proporcjonalnego do , w którym...

simulation monte-carlo metropolis-hastings numerical-integration

16

Dlaczego potrzebujemy ładowania początkowego?

Obecnie czytam „Wszystkie statystyki” Larry'ego Wassermana i zastanawia mnie coś, co napisał w rozdziale o szacowaniu funkcji statystycznych modeli nieparametrycznych. On napisał „Czasami możemy znaleźć szacowany błąd standardowy funkcji statystycznej, wykonując pewne obliczenia. Jednak w...

self-study estimation bootstrap standard-error

16

Pakiet R dla Weighted Random Forest? opcja classwt?

Próbuję użyć Losowego Lasu, aby przewidzieć wynik bardzo niezrównoważonego zestawu danych (wskaźnik klasy mniejszości wynosi około 1% lub nawet mniej). Ponieważ tradycyjny algorytm losowego lasu minimalizuje ogólny poziom błędu, zamiast zwracać szczególną uwagę na klasy mniejszości, nie ma...

r random-forest

16

Czy w statystycznej teorii uczenia się nie występuje problem przeregulowania zestawu testowego?

Rozważmy problem związany z klasyfikacją zestawu danych MNIST. Według strony MNIST Yanna LeCuna „Ciresan i in.” uzyskał poziom błędu 0,23% w zestawie testowym MNIST przy użyciu sieci neuronowej Convolutional. Oznaczmy zestaw treningowy MNIST jako , zestaw testowy MNIST jako , ostateczną hipotezę,...

machine-learning classification overfitting probability-inequalities

16

Interpretacja przedziału ufności

Uwaga: z góry przepraszam, jeśli jest to duplikat, nie znalazłem podobnego q w moim wyszukiwaniu Powiedzmy, że mamy prawdziwy parametr p. Przedział ufności C (X) to RV, który zawiera p, powiedzmy 95% czasu. Załóżmy teraz, że obserwujemy X i obliczamy C (X). Częstą odpowiedzią wydaje się być to, że...

probability confidence-interval

16

Jaką miarę błędu szkolenia zgłosić w Losowych lasach?

Obecnie dopasowuję losowe lasy pod kątem problemu z klasyfikacją za pomocą randomForestpakietu w R i nie jestem pewien, jak zgłosić błąd szkolenia dla tych modeli. Mój błąd szkolenia jest bliski 0%, kiedy go obliczam, używając prognoz, które otrzymuję za pomocą polecenia: predict(model,...

r machine-learning classification random-forest overfitting

16

Po co logować transformację danych przed przeprowadzeniem analizy głównych składników?

Im podążam za tutorialem tutaj: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/, aby lepiej zrozumieć PCA. Samouczek używa zestawu danych Iris i stosuje transformację dziennika przed PCA: Zauważ, że w poniższym kodzie stosujemy transformację logarytmiczną do zmiennych ciągłych,...

r pca data-transformation logarithm