Statystyki i duże zbiory danych

14

Co to jest próbkowanie Thompsona w kategoriach laika?

Nie jestem w stanie zrozumieć, jak działa Thompson Sampling . Czytałem o Multi Arm Bandit i po przeczytaniu algorytmu Upper Confidence Bound Algorytm wiele tekstów sugerowało, że próbkowanie Thompsona działa lepiej niż UCB. Co to jest próbkowanie Thompsona, w laika lub po prostu? Zapraszam do...

machine-learning definition multiarmed-bandit

14

Dla intuicji, jakie są przykłady rzeczywistych nieskorelowanych, ale zależnych zmiennych losowych?

Wyjaśniając, dlaczego nieskorelowane nie oznacza niezależności, istnieje kilka przykładów, które dotyczą szeregu zmiennych losowych, ale wszystkie wydają się tak abstrakcyjne: 1 2 3 4 . Ta odpowiedź wydaje się mieć sens. Moja interpretacja: Zmienna losowa i jej kwadrat mogą być nieskorelowane...

correlation independence non-independent garch intuition

14

Jaka jest / jest „mechaniczna” różnica między wielokrotną regresją liniową z opóźnieniami i szeregami czasowymi?

Jestem absolwentem biznesu i ekonomii, który obecnie studiuje magister inżynierii danych. Podczas badania regresji liniowej (LR), a następnie analizy szeregów czasowych (TS), przyszło mi do głowy pytanie. Po co tworzyć zupełnie nową metodę, tj. Szeregi czasowe (ARIMA), zamiast stosować wielokrotną...

regression time-series multiple-regression least-squares arima

14

GAM vs LOESS vs splajny

Kontekst : Chcę, aby narysować linię na wykresie rozrzutu, że nie pojawia się parametryczne, dlatego używam geom_smooth()w ggplotw R. Automatycznie zwraca geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change...

r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

14

Zastąpienie zmiennych WoE (waga dowodu) w regresji logistycznej

To pytanie dotyczy praktyki lub metody stosowanej przez niektórych moich kolegów. Podczas tworzenia modelu regresji logistycznej widziałem, jak ludzie zastępują zmienne kategoryczne (lub zmienne ciągłe, które są binowane) ich odpowiednią wagą dowodu (WoE). Podobno ma to na celu ustanowienie...

regression logistic categorical-data modeling

14

Dlaczego reszty w regresji liniowej zawsze sumują się do zera, gdy uwzględniany jest punkt przecięcia?

Biorę kurs na modele regresji, a jedną z właściwości przewidzianych dla regresji liniowej jest to, że reszty zawsze sumują się do zera po uwzględnieniu przecięcia. Czy ktoś może podać dobre wyjaśnienie, dlaczego tak jest?

regression residuals

14

Regresja do średniej w „Myśleniu, szybko i powoli”

W Thinking, Fast and Slow , Daniel Kahneman stawia następujące pytanie hipotetyczne: (Str. 186) Julie jest obecnie starszą uczelnią państwową. Płynnie czytała, gdy miała cztery lata. Jaka jest jej średnia ocen (GPA)? Jego intencją jest zilustrowanie tego, jak często nie uwzględniamy regresji...

standard-deviation regression-coefficients regression-to-the-mean

14

Jak znaleźć współczynniki regresji w regresji kalenicowej?

W regresji grzbietu funkcją celu, którą należy zminimalizować, jest:RSS+λ∑β2j.RSS+λ∑βj2.\text{RSS}+\lambda \sum\beta_j^2. Czy można to zoptymalizować za pomocą metody mnożnika Lagrange'a? Czy jest to proste

regression regularization ridge-regression

14

Odnośniki uzasadniające użycie mieszanek gaussowskich

Modele mieszanin gaussowskich (GMM) są atrakcyjne, ponieważ są łatwe do pracy zarówno w analityce, jak i w praktyce, i są w stanie modelować niektóre egzotyczne rozkłady bez zbytniej złożoności. Istnieje kilka właściwości analitycznych, których należy się spodziewać, które nie są ogólnie jasne. W...

probability normal-distribution references gaussian-mixture information-theory

14

Dlaczego wysoka dodatnia kurtoza jest problematyczna w testach hipotez?

Słyszałem (przepraszam, nie mogę podać linku do tekstu, coś mi powiedziano), że wysoka dodatnia kurtoza reszt może być problematyczna dla dokładnych testów hipotez i przedziałów ufności (a zatem problemów z wnioskowaniem statystycznym). Czy to prawda, a jeśli tak, to dlaczego? Czy wysoka dodatnia...

statistical-significance p-value assumptions kurtosis

14

Dlaczego liczba ciągłych zmiennych jednolitych na (0,1) potrzebnych do ich sumy przekraczającej jedną ma średnią ?

strumień zmiennych losowych, ; niech będzie liczbą warunków, których potrzebujemy, aby suma przekroczyła jeden, tj. jest najmniejszą liczbą taką, żeXi∼iidU(0,1)Xi∼iidU(0,1)X_i \overset{iid}\sim \mathcal{U}(0,1)YYYYYY X1+X2+⋯+XY>1.X1+X2+⋯+XY>1.X_1 + X_2 + \dots + X_Y > 1. Dlaczego średnia...

probability self-study expected-value uniform

14

Czy musisz przestrzegać zasady prawdopodobieństwa bycia Bayesianem?

Powstaje pytanie: kiedy (jeśli w ogóle) podejście częstokroć jest znacznie lepsze niż bayesowskie? Jak napisałem w moim rozwiązaniu tego pytania, moim zdaniem, jeśli jesteś częstym gościem, nie musisz wierzyć / stosować się do zasady prawdopodobieństwa, ponieważ często metody stosowane przez...

bayesian likelihood likelihood-principle

14

Co to jest minimalizacja zużycia energii w uczeniu maszynowym?

Czytałem o optymalizacji pod kątem źle postawionego problemu w widzeniu komputerowym i natrafiłem na poniższe wyjaśnienie dotyczące optymalizacji na Wikipedii. Nie rozumiem tylko, dlaczego nazywają tę optymalizację „ minimalizacją energii ” w Computer Vision? Problem optymalizacji można...

machine-learning optimization computer-vision

14

Jak wygładzić dane i wymusić monotoniczność

Mam pewne dane, które chciałbym wygładzić, aby wygładzone punkty monotonicznie zmniejszały się. Moje dane gwałtownie spadają, a następnie zaczynają się wyrównywać. Oto przykład z użyciem R. df <- data.frame(x=1:10, y=c(100,41,22,10,6,7,2,1,3,1)) ggplot(df, aes(x=x, y=y))+geom_line() Jakiej...

regression smoothing

14

Inicjalizacja wagi CNN Xaviera

W niektórych samouczkach stwierdziłem, że inicjalizacja wagi „Xaviera” (papier: Zrozumienie trudności w uczeniu głębokich sieci neuronowych ze sprzężeniem zwrotnym ) jest skutecznym sposobem inicjalizacji wag sieci neuronowych. W przypadku w pełni połączonych warstw w tych samouczkach obowiązywała...

normal-distribution variance neural-networks conv-neural-network

14

Uogólnione biblioteki modeli addytywnych w języku Python

Wiem, że R ma biblioteki gam i mgcv dla uogólnionych modeli addytywnych. Mam jednak trudności ze znalezieniem ich odpowiedników w ekosystemie Python (statsmodels ma tylko prototyp w piaskownicy). Czy ktoś wie o istniejących bibliotekach Python? Kto wie, że może to być dobry projekt do opracowania /...

gam

14

Czy zwiększanie gradientu jest odpowiednie dla danych z niskimi wskaźnikami zdarzeń, takimi jak 1%?

Próbuję zwiększyć gradient w zbiorze danych z częstością zdarzeń około 1% przy użyciu Enterprise Minera, ale nie daje żadnego wyniku. Moje pytanie brzmi: skoro jest to podejście oparte na drzewku decyzyjnym, czy w ogóle warto stosować zwiększanie gradientu przy tak niskim...

boosting unbalanced-classes rare-events gradient

14

Ograniczone maksymalne prawdopodobieństwo z mniej niż pełną pozycją kolumny

To pytanie dotyczy oszacowania ograniczonego maksymalnego prawdopodobieństwa (REML) w określonej wersji modelu liniowego, a mianowicie: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), gdzie X(α)X(α)X(\alpha) jest macierzą (...

mixed-model maximum-likelihood linear-model optimization reml

14

Testy wydajności dla MCMC

Czy przeprowadzono badania na dużą skalę metod MCMC, które porównują wydajność kilku różnych algorytmów w zestawie gęstości testowych? Mam na myśli coś równoważnego z tekstem Riosa i Sahinidisa (2013), który jest dokładnym porównaniem dużej liczby optymalizatorów czarnej skrzynki bez pochodnych na...

machine-learning bayesian references mcmc

14

Jak modelować podłużne duże zbiory danych?

Tradycyjnie używamy modelu mieszanego do modelowania danych podłużnych, tj. Danych takich jak: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 możemy przyjąć losowe przechwytywanie lub nachylenie dla różnych osób. Jednak pytanie, które próbuję...

machine-learning data-transformation random-forest panel-data large-data