Statystyki i duże zbiory danych

9

Dlaczego eliminacja wsteczna jest uzasadniona podczas regresji wielokrotnej?

Czy nie powoduje to nadmiernego dopasowania? Czy moje wyniki byłyby bardziej wiarygodne, jeśli w ramach analizy dodałem procedurę typu jack-knife lub

9

Dlaczego podczas korzystania z SVM muszę skalować funkcje?

Zgodnie z dokumentacją obiektu StandardScaler w scikit-learn: Na przykład wiele elementów wykorzystywanych w funkcji celu algorytmu uczenia się (np. Jądro RBF maszyn wektora wektorowego lub regulatory modeli liniowych L1 i L2) zakłada, że wszystkie funkcje są wyśrodkowane wokół 0 i mają...

machine-learning svm standard-deviation mean references

9

Alternatywne schematy wag dla metaanalizy efektów losowych: brak standardowych odchyleń

Pracuję nad metaanalizą efektów losowych obejmującą szereg badań, w których nie zgłoszono odchyleń standardowych; we wszystkich badaniach podano wielkość próby. Nie sądzę, że możliwe jest przybliżenie lub przypisanie brakujących danych SD. W jaki sposób metaanaliza wykorzystująca surowe...

stata missing-data meta-analysis meta-regression

9

Pakiet Metafor: diagnostyka stronniczości i czułości

Prowadzę wielopoziomową metaanalizę, która obejmuje niektóre artykuły z wieloma wynikami. Dlatego używam tej rma.mv()funkcji. Przykładowy kod: test.main = rma.mv(yi,vi,random = ~1|ID, data = data) Mam dwa pytania: Czytałem w poprzedniej kwerendy , które podczas używania rma.mv(),...

meta-analysis sensitivity-analysis publication-bias funnel-plot

9

Jak zastosować regresję do głównych składników, aby przewidzieć zmienną wyjściową?

Przeczytałem o podstawach analizy głównych składników z tutoriala 1 , link1 i link2 . Mam zestaw danych 100 zmiennych (w tym zmienną wyjściową Y), chcę zredukować zmienne do 40 za pomocą PCA, a następnie przewidzieć zmienną Y za pomocą tych 40 zmiennych. Problem 1: Po uzyskaniu głównych...

regression pca

9

Szacowanie wielopoziomowych modeli regresji logistycznej

Poniższy wielopoziomowy model logistyczny z jedną zmienną objaśniającą na poziomie 1 (poziom indywidualny) i jedną zmienną objaśniającą na poziomie 2 (poziom grupy): logit (pI j) =π0 j+π1 jxI j… ( 1 )logit(pij)=π0j+π1jxij…(1)\text{logit}(p_{ij})=\pi_{0j}+\pi_{1j}x_{ij}\ldots (1) π0...

r logistic generalized-linear-model simulation multilevel-analysis

9

Jeśli wszyscy 1000 badanych pacjentów nie zostanie wyleczonych przez lek, czy nie możemy powiedzieć, że akceptujemy hipotezę zerową?

W wielu miejscach przeczytałem, że nigdy nie możemy powiedzieć, że „akceptujemy” hipotezę zerową. Zamiast tego musimy powiedzieć, że „nie odrzucamy” hipotezy zerowej. Ale nie rozumiem, jak to wygląda w tym prostym przykładzie: Załóżmy, że testujemy lek, który ma całkowicie wyleczyć cukrzycę w...

hypothesis-testing

9

Alternatywy dla testu chi-kwadrat dla niezależności dla tabel większych niż 2 x 2

Jakie są alternatywy dla testu chi-kwadrat dla zmiennych kategorialnych z tabelami większymi niż 2 x 2 i komórkami o liczbie mniejszej niż 5, jeśli nie chcę scalać

chi-squared fishers-exact

9

Oswajanie skosu… Dlaczego jest tak wiele funkcji skosu?

Mam nadzieję uzyskać lepszy wgląd w cztery rodzaje przekrzywienia tej społeczności. Typy, o których mówię, są wymienione na stronie pomocy http://www.inside-r.org/packages/cran/e1071/docs/skewness . Stara metoda nie została wymieniona na stronie pomocy, ale mimo to ją...

skewness

9

Odwrotna funkcja wariancji

Czy dla danej liczby stałej (np. 4) można znaleźć rozkład prawdopodobieństwa dla , tak że mamy

distributions mathematical-statistics variance

9

Czy rozkład prawdopodobieństwa urny zmienia się, gdy czerpiesz z niej średnio bez zamiany?

Załóżmy, że mam urnę zawierającą N różnych kolorów kulek, a każdy inny kolor może pojawić się różną liczbę razy (jeśli jest 10 czerwonych kulek, nie musi też być 10 niebieskich kulek). Jeśli znamy dokładną zawartość urny przed narysowaniem, możemy utworzyć dyskretny rozkład prawdopodobieństwa,...

probability discrete-data distributions

9

Kiedy niewłaściwe modele liniowe stają się wyjątkowo piękne?

Pytania: Czy w praktyce stosowane są niewłaściwe modele liniowe, czy też jest to pewnego rodzaju ciekawość opisywana od czasu do czasu w czasopismach naukowych? Jeśli tak, w jakich obszarach są one wykorzystywane? Czy są inne przykłady takich modeli? Wreszcie, czy standardowe błędy, wartości ,...

regression references linear-model robust

9

Jaki jest dobry sposób graficznego przedstawienia bardzo dużej liczby sparowanych punktów danych?

W mojej dziedzinie zwykłym sposobem wykreślania sparowanych danych jest seria cienkich nachylonych segmentów linii, nakładających je na medianę i CI mediany dla dwóch grup: Jednak ten rodzaj wykresu staje się znacznie trudniejszy do odczytania, ponieważ liczba punktów danych staje się bardzo...

generalized-linear-model data-visualization modeling interpretation paired-data

9

W jaki sposób wzmocnienie gradientu przypomina opadanie gradientu?

Czytam przydatny wpis w Wikipedii na temat zwiększania gradientu ( https://en.wikipedia.org/wiki/Gradient_boosting ) i próbuję zrozumieć, w jaki sposób / dlaczego możemy przybliżać reszty za pomocą najbardziej stromego kroku opadania (zwanego również pseudo-gradientem ). Czy ktoś może mi...

self-study gradient-descent

9

Co to jest VectorSource i VCorpus w pakiecie „tm” (Text Mining) w języku R

Nie jestem do końca pewien, co dokładnie VectorSource i VCorpus są w pakiecie „tm”. Dokumentacja jest niejasna, czy ktoś może sprawić, że zrozumiem w prosty

r text-mining

9

Po co dodawać odwrotną częstotliwość dokumentów?

Mój podręcznik podaje idf jako gdzielog(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN : liczba dokumentów ntntn_t : liczba dokumentów zawierających terminttt Wikipedia wymienia tę formułę jako wygładzoną wersję rzeczywistego . Rozumiem to: waha się od do co wydaje się intuicyjne. Ale przechodzi z...

text-mining natural-language smoothing

9

Wielomianowa utrata logistyczna vs (Entropia krzyżowa vs błąd kwadratowy)

Zauważyłem, że Caffe (platforma do głębokiego uczenia się) używała Softmax Loss Layer SoftmaxWithLoss jako warstwy wyjściowej dla większości próbek modelu . O ile mi wiadomo, warstwa Softmax Loss jest połączeniem warstwy wielomianowej straty logistycznej i warstwy Softmax . Powiedzieli to od...

multinomial entropy sums-of-squares softmax

9

Wszystko jest w rodzinie; ale czy uwzględniamy też teściów?

Załóżmy, że mam eksperyment z dwoma lub więcej czynnikami. Konstruowana jest ogólna ANOVA, a następnie przeprowadzamy kolejne dwa lub więcej zestawów testów post hoc , powiedzmy wiele porównań. Moje pytanie dotyczy tego, jak duże --- i ile --- rodzin powinno być wykorzystane jako podstawa do...

multiple-comparisons post-hoc

9

Dlaczego suma kwadratów reszt nie rośnie podczas dodawania zmiennej objaśniającej?

W moim podręczniku ekonometrycznym (wprowadzającym ekonometrii) dotyczącym OLS autor pisze: „SSR musi upaść, gdy zostanie dodana inna zmienna objaśniająca”. Dlaczego tak

regression optimization econometrics intuition sums-of-squares

9

Jak ustawić niestandardowe kontrasty z lmer w R.

Używam lmera w R, aby sprawdzić wpływ warunku ( cond) na jakiś wynik. Oto niektóre skompilowane dane, gdzie s jest identyfikatorem podmiotu i a, bi csą warunkami. library("tidyr") library("dplyr") set.seed(123) temp <- data.frame(s = paste0("S", 1:30), a = rnorm(30, -2, 1), b = rnorm(30,...

r lme4-nlme contrasts