Statystyki i duże zbiory danych

20

Rzucanie wielowymiarowego modelu liniowego jako regresji wielokrotnej

Czy przekształcenie wielowymiarowego modelu regresji liniowej jako wielokrotnej regresji liniowej jest całkowicie równoważne? Ja nie odnosząc się po prostu działa ttt oddzielnych regresji. Przeczytałem o tym w kilku miejscach (Bayesian Data Analysis - Gelman i wsp. Oraz Multivariate Old School -...

20

Wybieranie między testem i testem

Tło: Przedstawiam kolegom w pracy prezentację na temat testowania hipotez i rozumiem większość z nich dobrze, ale jest jeden aspekt, który wiążę się w węzły, próbując zrozumieć i wyjaśnić innym. Tak myślę, że wiem (proszę poprawić, jeśli źle!) Statystyki, które byłyby normalne, gdyby wariancja...

hypothesis-testing normal-distribution t-test assumptions z-test

20

Jak wyprowadzić błąd standardowy współczynnika regresji liniowej

W tym modelu regresji liniowej jednowymiarowej yja= β0+ β1xja+ ϵjayja=β0+β1xja+ϵjay_i = \beta_0 + \beta_1x_i+\epsilon_i podane zestaw danych D = { ( x1, y1) , . . . , ( xn, yn) }re={(x1,y1),...,(xn,yn)}D=\{(x_1,y_1),...,(x_n,y_n)\} , oszacowania współczynników β 1 = Σ i x i y i - n ˉ x ˉ Y β 0=...

standard-error inference

20

Gdzie i dlaczego lśni głębokie uczenie się?

W dzisiejszych czasach, gdy wszystkie media rozmawiają o tym, jak głęboko się uczyć, czytam kilka podstawowych rzeczy na ten temat. Właśnie odkryłem, że jest to kolejna metoda uczenia maszynowego do nauki wzorców z danych. Ale moje pytanie brzmi: gdzie świeci i dlaczego ta metoda świeci? Dlaczego...

machine-learning data-mining deep-learning deep-belief-networks

20

Przykłady rozkładów z ujemną skośnością

Zainspirowany przez " rzeczywistymi przykładami typowych rozkładów ” zastanawiam się, jakich przykładów pedagogicznych używają ludzie, by wykazać negatywne przekrzywienie? Istnieje wiele „kanonicznych” przykładów rozkładów symetrycznych lub normalnych używanych w nauczaniu - nawet jeśli takie jak...

distributions skewness teaching

20

Analiza bayesowskiego przeżycia: proszę, napisz do mnie wcześniej dla Kaplana Meiera!

Rozważ obserwacje dobrze ocenzurowane z wydarzeniami czasami . Liczba podatnych osobników w czasie wynosi , a liczba zdarzeń w czasie wynosi .t1, t2), …t1,t2,…t_1, t_2, \dotsn I I d Ijaiinjanin_ijaiirejadid_i Kaplan-Meier lub estymator produktu powstaje naturalnie jako MLE, gdy funkcja przeżycia...

bayesian survival kaplan-meier

20

KKT kontra nieograniczone sformułowanie regresji lasso

Regresja penalizowana przez L1 (aka lasso) jest prezentowana w dwóch formulacjach. Niech dwie funkcje celu to Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. Następnie...

regression lasso penalized

20

Oczekiwany błąd prognozy - wyprowadzenie

Usiłuję zrozumieć wyprowadzenie oczekiwanego błędu prognozy na niższy poziom (ESL), szczególnie na podstawie wyprowadzenia 2.11 i 2.12 (warunkowanie, krok w kierunku minimum punktowego). Wszelkie wskazówki lub linki są mile widziane. Poniżej raportuję fragment z ESL str. 18. Pierwsze dwa równania...

regression prediction error

20

Interpretowanie wyników splajnu

Usiłuję dopasować splajn dla GLM za pomocą R. Po dopasowaniu splajnu chcę móc wziąć wynikowy model i utworzyć plik modelowania w skoroszycie programu Excel. Załóżmy na przykład, że mam zestaw danych, w którym y jest losową funkcją x, a nachylenie zmienia się nagle w określonym punkcie (w tym...

splines

20

k-fold Walidacja krzyżowa uczenia się w zespole

Jestem zdezorientowany, jak podzielić dane na k-krotnie krzyżową weryfikację uczenia się w zespole. Zakładając, że mam kompletny system uczenia się do klasyfikacji. Moja pierwsza warstwa zawiera modele klasyfikacji, np. Svm, drzewa decyzyjne. Moja druga warstwa zawiera model głosowania, który...

classification cross-validation ensemble

20

Czy istnieje algorytm podobny do drzewa decyzyjnego dla klastrów bez nadzoru?

Mam zestaw danych składa się z 5 funkcji: A, B, C, D, E. Wszystkie są wartości liczbowe. Zamiast tworzyć klastrowanie oparte na gęstości, chcę skupić dane w sposób podobny do drzewa decyzyjnego. Mam na myśli takie podejście: Algorytm może dzielić dane na X początkowych klastrów w oparciu o cechę...

r machine-learning clustering cart

20

Próbkowanie Gibbsa w porównaniu z ogólnym MH-MCMC

Właśnie czytałem trochę na temat próbkowania Gibbsa i algorytmu Metropolis Hastings i mam kilka pytań. Jak rozumiem, w przypadku próbkowania Gibbsa, jeśli mamy duży problem wielowymiarowy, próbkujemy z rozkładu warunkowego, tj. Próbkujemy jedną zmienną, utrzymując wszystkie pozostałe w stałym,...

bayesian sampling mcmc gibbs metropolis-hastings

20

Jak uzyskać wartość średniego błędu kwadratu w regresji liniowej w R.

Niech model regresji liniowej uzyskany przez funkcję R lm chciałby wiedzieć, czy można to uzyskać za pomocą polecenia Mean Squared Error. Miałem następujący wynik w przykładzie > lm <- lm(MuscleMAss~Age,data) > sm<-summary(lm) > sm Call: lm(formula = MuscleMAss ~ Age, data =...

r regression error

20

Testuj współczynnik modelu (nachylenie regresji) względem pewnej wartości

W R, kiedy mam (uogólniony) model liniowy ( lm, glm, gls, glmm, ...), jak mogę sprawdzić współczynnik (nachylenie regresji) przed jakąkolwiek inną wartość niż 0? W podsumowaniu modelu wyniki testu t współczynnika są automatycznie raportowane, ale tylko dla porównania z 0. Chcę porównać go z inną...

r regression t-test

20

Kowariancja losowego wektora po transformacji liniowej

Jeśli jest losowym wektorem, a jest stałą macierzą, ktoś mógłby wyjaśnić, dlaczego A c o v [ A Z ] = A c o v [ Z ] A ⊤ .ZZ\mathbf {Z}AAAcov[AZ]=Acov[Z]A⊤.cov[AZ]=Acov[Z]A⊤.\mathrm{cov}[A \mathbf {Z}]= A \mathrm{cov}[\mathbf

covariance

20

Extreme learning machine: o co w tym wszystkim chodzi?

Od ponad roku zastanawiam się, wdrażam i stosuję paradygmat Extreme Learning Machine (ELM), a im dłużej to robię, tym bardziej wątpię, czy to naprawdę dobra rzecz. Wydaje mi się jednak, że moja opinia jest sprzeczna ze środowiskiem naukowym, w którym - gdy używa się cytatów i nowych publikacji jako...

regression

20

Czy jest jakaś przewaga SVD nad PCA?

Wiem, jak obliczyć PCA i SVD matematycznie, i wiem, że oba można zastosować do regresji liniowej najmniejszych kwadratów. Główną zaletą SVD matematycznie wydaje się być to, że można ją zastosować do macierzy niekwadratowych. Oba skupiają się na rozkładzie macierzyPoza wymienioną przewagą SVD, czy...

pca least-squares svd

20

Jak stosować metodę delta do standardowych błędów efektów marginalnych?

Interesuje mnie lepsze zrozumienie metody delta do aproksymacji standardowych błędów średnich efektów krańcowych modelu regresji, który obejmuje termin interakcji. Patrzyłem na powiązane pytania metodą delta, ale żadne nie dostarczyło tego, czego szukam. Rozważ następujące przykładowe dane jako...

r regression standard-error effect-size delta-method

20

Dlaczego szacunkowe wartości z najlepszego liniowego bezstronnego predyktora (BLUP) różnią się od najlepszego liniowego bezstronnego estymatora (NIEBIESKI)?

Rozumiem, że różnica między nimi jest związana z tym, czy zmienna grupująca w modelu jest szacowana jako efekt stały czy losowy, ale nie jest dla mnie jasne, dlaczego nie są takie same (jeśli nie są takie same). Interesuje mnie szczególnie, jak to działa, gdy stosuje się oszacowanie małego...

mixed-model blue blup small-area-estimation

20

Czy zgłoszono najnowszą wydajność wykorzystania wektorów akapitowych do analizy sentymentów?

Byłem pod wrażeniem wyników w artykule ICML 2014 „ Rozproszone reprezentacje zdań i dokumentów ” Le i Mikołaja. Technika, którą opisują, zwana „wektorami akapitowymi”, uczy się nienadzorowanej reprezentacji arbitralnie długich akapitów / dokumentów, w oparciu o rozszerzenie modelu word2vec. W...

text-mining natural-language word-embeddings sentiment-analysis reproducible-research