Statystyki i duże zbiory danych

10

Artykuł wspomina o „symulacji Monte Carlo w celu ustalenia liczby głównych składników”; jak to działa?

Robię analizę Matlaba na danych MRI, gdzie wykonałem PCA na matrycy o wymiarach 10304x236, gdzie 10304 to liczba wokseli (traktuj je jako piksele), a 236 to liczba punktów czasowych. PCA daje mi 236 wartości własnych i powiązanych z nimi współczynników. Wszystko w porządku. Jednak, gdy nadchodzi...

pca eigenvalues neuroimaging

10

Suma współczynników rozkładu wielomianowego

\newcommand{\P}{\mathbb{P}} Rzucam sprawiedliwą kostką. Ilekroć dostaję 1, 2 lub 3, zapisuję „1”; za każdym razem, gdy dostaję 4, zapisuję „2”; za każdym razem, gdy dostaję 5 lub 6, zapisuję „3”. Niech będzie całkowitą liczbą rzutów, których potrzebuję, aby iloczyn wszystkich zapisanych przeze...

probability normal-distribution conditional-probability multinomial distributions

10

Rozkład ciągłego jednolitego RV, przy czym górna granica jest kolejnym ciągłym jednolitym RV

Jeśli i Y ∼ U ( a , X ) , to czy mogę powiedzieć, że Y ∼ U ( a , b ) ?X∼U(a,b)X∼U(a,b)X \sim U(a, b)Y∼U(a,X)Y∼U(a,X)Y \sim U(a, X)Y∼U(a,b)?Y∼U(a,b)?Y \sim U(a, b)? Mówię o ciągłych rozkładach jednorodnych z limitami . Dowód (lub odrzucenie!) Zostanie doceniony.[a,b][a,b][a,...

uniform distributions

10

Jak narysować dopasowany wykres i rzeczywisty wykres rozkładu gamma na jednym wykresie?

Załaduj potrzebny pakiet. library(ggplot2) library(MASS) Wygeneruj 10 000 liczb dopasowanych do rozkładu gamma. x <- round(rgamma(100000,shape = 2,rate = 0.2),1) x <- x[which(x>0)] Narysuj funkcję gęstości prawdopodobieństwa, zakładając, że nie wiemy, do którego rozkładu x...

r mathematical-statistics goodness-of-fit gamma-distribution ggplot2

10

Pozorna niezgodność źródeł w analizie liniowej, kwadratowej i dyskryminacyjnej Fishera

Studiuję analizę dyskryminacyjną, ale trudno mi pogodzić kilka różnych wyjaśnień. Wydaje mi się, że czegoś mi brakuje, ponieważ nigdy wcześniej nie spotkałem się z takim (pozornym) poziomem rozbieżności. Biorąc to pod uwagę, liczba pytań dotyczących analizy dyskryminacyjnej na tej stronie wydaje...

multivariate-analysis discriminant-analysis

10

Jednowarstwowa sieć neuronowa z aktywacją ReLU równą SVM?

Załóżmy, że mam prostą jednowarstwową sieć neuronową z n wejściami i jednym wyjściem (zadanie klasyfikacji binarnej). Jeśli ustawię funkcję aktywacji w węźle wyjściowym jako funkcję sigmoidalną, wówczas wynikiem będzie klasyfikator regresji logistycznej. W tym samym scenariuszu, jeśli zmienię...

neural-networks svm

10

Test dwóch próbek chi do kwadratu

To pytanie pochodzi z książki Van der Vaarta Asymptotic Statistics, str. 253. # 3: Załóżmy, że XmXm\mathbf{X}_m i YnYn\mathbf{Y}_n to niezależne wielomianowy wektorów parametrów (m,a1,…,ak)(m,a1,…,ak)(m,a_1,\ldots,a_k) a (n,b1,…,bk)(n,b1,…,bk)(n,b_1,\ldots,b_k) . Zgodnie z hipotezą zerową, że I =...

self-study chi-squared multinomial central-limit-theorem

10

Czy istnieją aplikacje, w których SVM wciąż jest lepszy?

Algorytm SVM jest dość stary - opracowano go w latach 60., ale był niezwykle popularny w latach 90. i 2000. Jest to klasyczna (i dość piękna) część kursów uczenia maszynowego. Dziś wydaje się, że w przetwarzaniu mediów (obrazy, dźwięk itp.) Sieci neuronowe całkowicie dominują, podczas gdy w innych...

machine-learning svm

10

Czy istnieją jakieś prawdziwe statystyki za „pitagorejskim twierdzeniem o baseballu”?

Czytam książkę o sabermetrii, w szczególności Mathletics autorstwa Wayne Winston, a w pierwszym rozdziale wprowadza ilość, którą można wykorzystać do przewidzenia wskaźnika wygranych drużyn: i wydaje się sugerować, że w połowie sezonu można go wykorzystać do przewidywania wskaźnika...

maximum-likelihood inference

10

Jaki powinien być nieinformacyjny uprzedni spadek dla regresji liniowej?

Wykonując bayesowską regresję liniową, należy przypisać pierwszeństwo dla nachylenia zazaa i przecięcia bbb . Ponieważ jest parametrem lokalizacji, sensowne jest przypisanie uprzedniego munduru; Wydaje mi się jednak, że jest zbliżone do parametru skali i wydaje się nienaturalne przypisywanie...

regression bayesian uninformative-prior

10

Twierdzenie o granicy centralnej i rozkład Pareto

Czy ktoś może przedstawić proste (świeckie) wyjaśnienie związku między rozkładami Pareto a centralnym twierdzeniem granicznym (np. Czy ma zastosowanie? Dlaczego / dlaczego nie?)? Próbuję zrozumieć następujące oświadczenie: „Twierdzenie o granicy centralnej nie działa z każdym rozkładem. Wynika...

variance central-limit-theorem intuition pareto-distribution fat-tails

10

Jak nazywa się ten typ wykresu z równolegle wycentrowanymi poziomymi słupkami gęstości?

Jak nazwałbyś tego typu fabułę i czy można je utworzyć w R? EDYCJA: wielkie dzięki wszystkim - bardzo pomocne. Najlepszy jak dotąd tytuł: skwantowane wykresy

r data-visualization

10

Funkcje rankingowe w regresji logistycznej

Użyłem regresji logistycznej. Mam sześć funkcji, chcę poznać ważne cechy tego klasyfikatora, które wpływają na wynik bardziej niż inne cechy. Użyłem Information Gain, ale wygląda na to, że nie zależy to od zastosowanego klasyfikatora. Czy istnieje metoda uszeregowania cech według ich ważności na...

logistic feature-selection ranking regression-strategies

10

Czy funkcję delta Diraca należy uważać za podklasę rozkładu Gaussa?

W Wikidata możliwe jest powiązanie rozkładów prawdopodobieństwa (jak wszystko inne) w ontologii, np. Że rozkład t jest podklasą niecentralnego rozkładu t, patrz np. https://angryloki.github.io/wikidata-graph-builder/?property=P279&item=Q209675&iterations=3&limit=3 Istnieją różne...

distributions normal-distribution dirac-delta

10

Czy kiedykolwiek dobrym pomysłem jest „częściowe uznanie” (ciągły wynik) szkolenia regresji logistycznej?

Trenuję regresję logistyczną, aby przewidzieć, którzy biegacze najprawdopodobniej zakończą wyczerpujący wyścig wytrzymałościowy. Bardzo niewielu biegaczy kończy wyścig, więc mam poważny brak równowagi klas i małą próbkę sukcesów (może kilkadziesiąt). Czuję, że mógłbym uzyskać dobry „sygnał” od...

logistic binary-data continuous-data

10

Dlaczego Rao-Blackwell twierdzenia wymagają

Twierdzenie Rao-Blackwella Niech θ być estymatorem θ z E ( θ 2 ) < ∞ dla wszystkich θ . Załóżmy, że T jest wystarczająca dla θ i niech θ * = E ( θ | T ) Wtedy dla wszystkich θ , E ( θ * - θ ) 2 ≤ E ( θ - θ ) 2 Nierówność jest ścisła chybaθ^θ^\hat{\theta}θθ\thetaE(θ^2)<∞E(θ^2)<∞\Bbb E...

rao-blackwell

10

Dlaczego błędy typu II nie są tak podkreślane w literaturze statystycznej?

Widziałem wiele przypadków, w których błędy typu I są uwzględniane (oznaczane przez wartość alfa) w różnych artykułach badawczych. Rzadko zdarza mi się, aby badacz wziął pod uwagę moc lub błąd typu II. Błędy typu II mogą być bardzo ważne, prawda? Przypadkowo odrzuciliśmy alternatywną hipotezę, gdy...

hypothesis-testing type-i-and-ii-errors

10

Przejrzyste wyjaśnienie „stabilności numerycznej inwersji macierzy” w regresji grzbietu i jej roli w zmniejszaniu przeładowania

Rozumiem, że możemy zastosować regularyzację w przypadku problemu regresji metodą najmniejszych kwadratów jako w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) +...

regression regularization ridge-regression overfitting matrix-inverse

10

Przypadki użycia RBF SVM (vs regresja logistyczna i losowy las)

Obsługiwane maszyny wektorowe z jądrem funkcji podstawy radialnej to nadzorowany klasyfikator ogólnego przeznaczenia. Chociaż znam teoretyczne podstawy tych maszyn wirtualnych i ich mocne strony, nie znam przypadków, w których są one preferowaną metodą. Czy istnieje klasa problemów, dla których...

machine-learning logistic classification svm random-forest

10

Zapobieganie awariom próbkowania wygładzonego Pareto (PSIS-LOO)

Niedawno zacząłem używać wygładzania ważności Pareto z pominięciem krzyżowej walidacji (PSIS-LOO), opisanej w tych artykułach: Vehtari, A., i Gelman, A. (2015). Pareto wygładził próbkowanie ważności. prefiks arXiv ( link ). Vehicletari, A., Gelman, A., i Gabry, J. (2016). Praktyczna ocena modelu...

machine-learning cross-validation mcmc pareto-distribution importance-sampling