Statystyki i duże zbiory danych

12

Czy są -te przekształcenia katalogu głównego?

Mój kolega chce przeanalizować niektóre dane po przekształceniu zmiennej odpowiedzi przez podniesienie jej do potęgi (to znaczy ). i0,1251818\frac18y0,125y0,125y^{0.125} Nie czuję się z tym komfortowo, ale próbuję wyjaśnić, dlaczego. Nie mogę wymyślić żadnego mechanistycznego uzasadnienia tej...

regression data-transformation aic

12

RMSProp i Adam vs SGD

Przeprowadzam eksperymenty na zestawie walidacyjnym EMNIST przy użyciu sieci z RMSProp, Adamem i SGD. Osiągam 87% dokładności dzięki SGD (współczynnik uczenia się 0,1) i porzucaniu (0,1 porzuceniu prob), a także regularyzacji L2 (kara 1e-05). Podczas testowania tej samej dokładnej konfiguracji z...

machine-learning optimization sgd adam

12

Jaki jest związek między ANOVA w celu porównania średnich z kilku grup a ANOVA w celu porównania modeli zagnieżdżonych?

Do tej pory widziałem ANOVA używaną na dwa sposoby: Po pierwsze , w moim tekście statystyki wprowadzającej ANOVA została wprowadzona jako sposób porównania średnich z trzech lub więcej grup, jako ulepszenie w porównaniu z parami, w celu ustalenia, czy jeden ze średnich ma statystycznie istotną...

hypothesis-testing anova model-comparison f-test nested-models

12

Czy rozkład Gaussa jest szczególnym przypadkiem rozkładu Beta?

Jeśli spojrzysz na rozkład beta za pomocąα=β=4α=β=4\alpha=\beta=4 , wygląda to bardzo podobnie do rozkładu Gaussa . Ale czy to jest? Jak możesz udowodnić, czy rozkład Beta (4,4) jest gaussowski, czy

normal-distribution beta-distribution

12

Uogólnione modele addytywne (GAM), interakcje i zmienne towarzyszące

Eksplorowałem szereg narzędzi do prognozowania i odkryłem, że Uogólnione Modele Addytywne (GAM) mają największy potencjał do tego celu. GRY są świetne! Pozwalają na bardzo zwięzłe określenie złożonych modeli. Jednak ta sama zwięzłość powoduje pewne zamieszanie, szczególnie w odniesieniu do tego, w...

r modeling gam mgcv

12

Badacz 1 przeprowadza 1000 regresji, badacz 2 prowadzi tylko 1, oba osiągają takie same wyniki - czy powinny dokonywać różnych wniosków?

Wyobraź sobie, że badacz bada zbiór danych i przeprowadza 1000 różnych regresji i znajduje między nimi jedną interesującą relację. Teraz wyobraź sobie, że inny badacz z tymi samymi danymi wykonuje tylko 1 regresję i okazuje się, że jest to ta sama, którą drugi badacz wziął 1000 regresji, aby ją...

bayesian multiple-regression multiple-comparisons inference theory

12

Jak zaprogramować symulację Monte Carlo paradoksu pudełkowego Bertranda?

Następujący problem został opublikowany na stronie Mensa International na Facebooku: \quad\quad\quad\quad\quad\quad\quad\quad Sam post otrzymał ponad 1000 komentarzy, ale nie będę wchodził w szczegóły na temat debaty, ponieważ wiem, że jest to paradoks skrzynki Bertranda, a odpowiedź brzmi ....

r probability simulation monte-carlo paradox

12

Czy to możliwe, że dwie Zmienne Losowe z tej samej rodziny dystrybucji mają takie same oczekiwania i wariancje, ale różne wyższe momenty?

Myślałem o znaczeniu rodziny o skali lokalizacji. Mi się, że dla każdego XXX członek lokalizacji skalę rodziny z parametrami położenie i b skalę, to dystrybucja Z = ( X - ) / b nie zależy od jakichkolwiek parametrów i jest taka sama dla każdego X należącego do rodzina.aaabbbZ=(X−a)/bZ=(X−a)/bZ...

probability distributions mathematical-statistics random-variable moments

12

Czy modele głębokiego uczenia są parametryczne? A może nieparametryczny?

Nie sądzę, aby istniała jedna odpowiedź na wszystkie modele głębokiego uczenia się. Które z modeli głębokiego uczenia są parametryczne, a które nieparametryczne i

neural-networks deep-learning nonparametric parametric

12

Różnica między regresją PLS a modelowaniem ścieżki PLS. Krytyka PLS

Pytanie zostało zadane tutaj, ale nikt nie udzielił dobrej odpowiedzi. Myślę więc, że dobrym pomysłem jest powtórzenie tego, a także chciałbym dodać więcej komentarzy / pytań. Pierwsze pytanie brzmi: jaka jest różnica między „modelowaniem ścieżki PLS” a „regresją PLS”? Mówiąc bardziej ogólnie,...

sem partial-least-squares path-model

12

gdy i niezależnie

XXX i są niezależnie losowymi zmiennymi losowymi, gdzie i . Jaki jest rozkład ?YYYX∼χ2(n−1)X∼χ(n−1)2X\sim\chi^2_{(n-1)}Y∼Beta(n2−1,n2−1)Y∼Beta(n2−1,n2−1)Y\sim\text{Beta}\left(\frac{n}{2}-1,\frac{n}{2}-1\right)Z=(2Y−1)X−−√Z=(2Y−1)XZ=(2Y-1)\sqrt X Łączną gęstość...

self-study distributions mathematical-statistics random-variable

12

Dlaczego nie używamy ważonej średniej arytmetycznej zamiast średniej harmonicznej?

Zastanawiam się, jaka jest wewnętrzna wartość stosowania średniej harmonicznej (na przykład do obliczania miar F), a nie ważonej średniej arytmetycznej w łączeniu precyzji i przypominania? Myślę, że ważona średnia arytmetyczna może odgrywać rolę średniej harmonicznej, czy coś mi...

machine-learning monte-carlo precision-recall harmonic-mean

12

Matrycowa forma propagacji wstecznej z normalizacją partii

Normalizacji partii przypisano znaczną poprawę wydajności w głębokich sieciach neuronowych. Wiele materiałów w Internecie pokazuje, jak wdrożyć je na zasadzie aktywacja po aktywacji. Zaimplementowałem już backprop za pomocą algebry macierzy i biorąc pod uwagę, że pracuję w językach wysokiego...

machine-learning neural-networks deep-learning backpropagation batch-normalization

12

Jak rygorystycznie uzasadnić wybrane fałszywie dodatnie / fałszywie ujemne poziomy błędu i leżący u ich podstaw stosunek kosztów?

Kontekst Grupa naukowców i statystów ( Benjamin i in., 2017 ) niedawno zasugerowała, że typowy współczynnik fałszywie dodatnich ( = 0,05) stosowany jako próg dla określenia „istotności statystycznej” musi zostać dostosowany do bardziej konserwatywnego progu ( = .005). Konkurencyjna grupa...

hypothesis-testing p-value power type-i-and-ii-errors

12

Dlaczego istnieją zalecenia, aby nie używać Jeffreysa lub priorów opartych na entropii dla samplerów MCMC?

Na swojej stronie wiki twórcy Stana stwierdzają: Niektóre zasady, których nie lubimy: niezmienność, Jeffreys, entropia Zamiast tego widzę wiele normalnych zaleceń dotyczących dystrybucji. Do tej pory korzystałem z metod bayesowskich, które nie polegały na próbkowaniu, i byłem zadowolony, że...

bayesian mcmc prior pymc stan

12

Zrozumienie negatywnej regresji kalenicy

Szukam literatury na temat negatywnej regresji kalenicy . W skrócie, jest to uogólnienie regresji liniowej grzbiet wykluczających λλ\lambda we wzorze β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.Przypadek pozytywny ma ładną teorię: jako funkcję straty, jako...

regression regularization ridge-regression

12

Kiedy metody Monte Carlo są lepsze od metod różnic czasowych?

Ostatnio robiłem dużo badań na temat nauki o wzmocnieniu. Śledziłem Reinforcement Learning Sutton & Barto : Wprowadzenie do większości tego. Wiem, czym są procesy decyzyjne Markowa i jak do ich rozwiązania można wykorzystać uczenie się w zakresie programowania dynamicznego (DP), Monte Carlo i...

monte-carlo reinforcement-learning temporal-difference

12

Czy stacjonarność jest zachowana w kombinacji liniowej?

Wyobraźmy sobie, że mamy dwa procesy szeregów czasowych, które są stacjonarne, wytwarzając: .xt,ytxt,ytx_t,y_t Czy , również stacjonarny? ∀ α , β ∈ Rzt=αxt+βytzt=αxt+βytz_t=\alpha x_t +\beta y_t∀α,β∈R∀α,β∈R\forall \alpha, \beta \in \mathbb{R} Każda pomoc będzie mile widziana. Powiedziałbym tak,...

time-series stochastic-processes stationarity

12

Dlaczego kilka (jeśli nie wszystkie) testy hipotez parametrycznych zakładają losowe próbkowanie?

Testy takie jak Z, t i kilka innych zakładają, że dane są oparte na losowym próbkowaniu. Dlaczego? Załóżmy, że prowadzę badania eksperymentalne, w których bardziej zależy mi na wewnętrznej ważności niż na zewnętrznej. Tak więc, jeśli moja próbka może być nieco stronnicza, to dobrze, ponieważ...

hypothesis-testing sampling parametric randomness

12

Co oznacza „wariacyjny”?

Czy użycie „wariacyjnego” zawsze odnosi się do optymalizacji poprzez wnioskowanie wariacyjne? Przykłady: „Automatyczny enkoder wariacyjny” „Wariacyjne metody bayesowskie” „Grupa renormalizacji

machine-learning optimization inference