Statystyki i duże zbiory danych

14

Co oznacza „maszyna” w „maszynie wektora pomocniczego” i „ograniczonej maszynie Boltzmanna”?

Dlaczego nazywane są „maszynami”? Czy w tym kontekście jest używane słowo „maszyna”? (Jak nazwa „programowanie liniowe” może być myląca, ale wiemy, dlaczego nazywa się to

14

Intuicyjnie rozumiem, dlaczego rozkład Poissona jest ograniczającym przypadkiem rozkładu dwumianowego

W „Analizie danych” DS Sivii istnieje pochodna rozkładu Poissona z rozkładu dwumianowego. Twierdzą, że rozkład Poissona jest ograniczającym przypadkiem rozkładu dwumianowego, gdy M→∞M→∞M\rightarrow\infty , gdzie MMM jest liczbą prób. Pytanie 1: Jak intuicyjnie zrozumieć ten argument? Pytanie 2:...

binomial poisson-distribution combinatorics intuition probability-calculus

14

Sieć neuronowa do regresji wielokrotnego wyjścia

Mam zestaw danych zawierający 34 kolumny wejściowe i 8 kolumn wyjściowych. Jednym ze sposobów rozwiązania tego problemu jest pobranie 34 danych wejściowych i zbudowanie indywidualnego modelu regresji dla każdej kolumny wyjściowej. Zastanawiam się, czy ten problem można rozwiązać za pomocą tylko...

neural-networks deep-learning multivariate-regression

14

Dlaczego regresja liniowa ma założenie dotyczące resztkowego, ale uogólnionego modelu liniowego ma założenia dotyczące reakcji?

Dlaczego regresja liniowa i model uogólniony mają niespójne założenia? W regresji liniowej zakładamy, że reszta pochodzi z gaussowskiego W innych regresjach (regresja logistyczna, regresja trucizny) zakładamy, że odpowiedź pochodzi z pewnego rozkładu (dwumianowy, pozycyjny itp.). Dlaczego...

regression generalized-linear-model assumptions linear

14

Co oznacza warstwa wąskiego gardła w sieciach neuronowych?

Czytałem FaceNet papier i w 3. akapicie wprowadzenia mówi: Wcześniejsze podejścia do rozpoznawania twarzy oparte na głębokich sieciach wykorzystywały warstwę klasyfikacyjną przeszkoloną w oparciu o zestaw znanych tożsamości twarzy, a następnie przyjmowały pośrednią warstwę wąskiego gardła jako...

neural-networks image-processing

14

Analiza wrażliwości w głębokich sieciach neuronowych

Po udzieleniu odpowiedzi na pytanie ( Wyodrębnianie znaczenia wagi z jednowarstwowej sieci feed-forward ) szukam wnioskowania na temat znaczenia danych wejściowych w sieciach neuronowych. Biorąc pod uwagę głęboką sieć, w której rekonstrukcja znaczenia wejściowego poprzez przejście wstecz przez...

neural-networks python feature-selection sensitivity-analysis

14

Czy kiedykolwiek używamy oszacowania maksymalnego prawdopodobieństwa?

Zastanawiam się, czy oszacowanie maksymalnego prawdopodobieństwa kiedykolwiek użyte w statystykach. Uczymy się jego koncepcji, ale zastanawiam się, kiedy jest faktycznie używana. Jeśli przyjmiemy rozkład danych, znajdziemy dwa parametry, jeden dla średniej i jeden dla wariancji, ale czy...

estimation maximum-likelihood

14

Czy istnieją matematyczne powody splotu w sieciach neuronowych poza celami?

W splotowych sieciach neuronowych (CNN) matryca wag na każdym kroku zostaje odwrócona w celu uzyskania macierzy jądra przed przystąpieniem do splotu. Wyjaśnia to seria filmów Hugo Larochelle tutaj : Obliczenie ukrytych map odpowiadałoby wykonaniu dyskretnego splotu z kanałem z poprzedniej...

machine-learning neural-networks conv-neural-network convolution

14

Co to znaczy, że regresja liniowa jest statystycznie istotna, ale ma bardzo niskie r kwadrat do kwadratu?

Rozumiem, że oznacza to, że model źle prognozuje poszczególne punkty danych, ale ustanowił silny trend (np. Y rośnie, gdy x

regression inference r-squared linear

14

Intuicyjne wyjaśnienie, dlaczego działa procedura FDR Benjamini-Hochberg?

Czy istnieje prosty sposób wyjaśnienia, dlaczego procedura Benjaminiego i Hochberga (1995) faktycznie kontroluje współczynnik fałszywych odkryć (FDR)? Ta procedura jest tak elegancka i zwarta, a jednak dowód na to, dlaczego działa ona niezależnie (pojawiający się w załączniku do ich artykułu z 1995...

intuition false-discovery-rate teaching

14

Jak można go uwięzić w siodle?

Obecnie jestem nieco zdziwiony tym, w jaki sposób opadanie gradientu mini-partii może być uwięzione w punkcie siodłowym. Rozwiązanie może być zbyt trywialne, że go nie rozumiem. Masz nową próbkę każda epoka, i oblicza nową błędów oparty na nowej partii, więc funkcja kosztu jest statyczne tylko...

gradient-descent sgd

14

Intuicyjne zrozumienie różnicy między konsekwentnym a asymptotycznie bezstronnym

Staram się uzyskać intuicyjne zrozumienie i wyczuć różnicę i praktyczną różnicę między terminem spójnym a asymptotycznie bezstronnym. Znam ich matematyczne / statystyczne definicje, ale szukam czegoś intuicyjnego. Dla mnie, patrząc na ich indywidualne definicje, prawie wydają się być tym samym....

bias convergence unbiased-estimator asymptotics intuition

14

Jak wdrażany jest Przestrzenny rezygnacja z 2D?

Odnosi się to do artykułu Efektywna lokalizacja obiektu za pomocą sieci konwergentnych i z tego, co rozumiem, rezygnacja jest realizowana w 2D. Po odczytaniu kodu z Keras o tym, jak zaimplementowano Upadek przestrzenny 2D, w zasadzie implementowana jest losowa binarna maska kształtu [batch_size,...

machine-learning deep-learning tensorflow dropout

14

Jaki jest najmniejszy

Zdefiniuj oszacowanie lasso gdzie i ^ {th} wiersz x_i \ in \ mathbb {R} ^ p macierzy projektowej X \ in \ mathbb {R} ^ {n \ times p} jest wektorem zmiennych towarzyszących dla wyjaśnienia odpowiedzi stochastycznej y_i (dla i = 1, \ kropki n

lasso regularization

14

Luka między błędami „pociąg a test” i jej związek z nadmiernym wyposażeniem: pogodzenie sprzecznych porad

Wydaje się, że istnieją sprzeczne porady na temat tego, jak radzić sobie z porównywaniem błędu pociągu z błędem testu, szczególnie gdy istnieje między nimi różnica. Wydaje mi się, że istnieją dwie szkoły myślenia, które wydają mi się sprzeczne. Chcę zrozumieć, jak pogodzić te dwie rzeczy (lub...

cross-validation overfitting

14

Ile 2-literowych słów można uzyskać od aabcccddef

(aa byłby jednym z wielu, bb nie) Myślałem, że to będzie 10! / 8! Ale najwyraźniej robię coś złego. Czy ktoś może mi pomóc, bo jestem

self-study combinatorics

14

Czy rozmiary efektów naprawdę przewyższają wartości p?

Duży nacisk kładzie się na poleganie i zgłaszanie wielkości efektów zamiast wartości p w badaniach stosowanych (np. Cytaty poniżej). Ale czy nie jest tak, że wielkość efektu, podobnie jak wartość p, jest zmienną losową i jako taka może różnić się w zależności od próbki, gdy powtórzy się ten sam...

hypothesis-testing confidence-interval p-value effect-size

14

Caret glmnet vs cv.glmnet

Wydaje się, że istnieje wiele zamieszania w porównaniu używania glmnetwewnątrz w caretcelu znalezienia optymalnej lambdy i korzystania cv.glmnetz tego samego zadania. Zadano wiele pytań, np .: Model klasyfikacji train.glmnet vs. cv.glmnet? Jaki jest właściwy sposób używania glmnet z...

r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

14

Strojenie hiper parametrów: Wyszukiwanie losowe a optymalizacja Bayesa

Wiemy zatem, że wyszukiwanie losowe działa lepiej niż wyszukiwanie siatki, ale nowszym podejściem jest optymalizacja Bayesa (przy użyciu procesów gaussowskich). Sprawdziłem porównanie między nimi i nic nie znalazłem. Wiem, że w cs231n Stanforda wspominają tylko o losowym wyszukiwaniu, ale możliwe...

bayesian hyperparameter

14

Prawdopodobieństwo, że hipoteza zerowa jest prawdziwa

To może być częste pytanie, ale nigdy nie znalazłem satysfakcjonującej odpowiedzi. Jak określić prawdopodobieństwo, że hipoteza zerowa jest prawdziwa (lub fałszywa)? Powiedzmy, że dajesz uczniom dwie różne wersje testu i chcesz sprawdzić, czy wersje były równoważne. Wykonujesz test t, który daje...

probability hypothesis-testing bayesian