Statystyki i duże zbiory danych

56

Jak symulować dane spełniające określone ograniczenia, takie jak posiadanie określonej średniej i odchylenia standardowego?

To pytanie jest motywowane moim pytaniem dotyczącym metaanalizy . Ale wyobrażam sobie, że przydałoby się to również w nauczaniu kontekstów, w których chcesz utworzyć zestaw danych, który dokładnie odzwierciedla istniejący opublikowany zestaw danych. Wiem, jak generować losowe dane z danej...

r dataset simulation random-generation

56

Czy wszystkie wartości w 95% przedziale ufności są równie prawdopodobne?

Znalazłem niezgodne informacje na pytanie: „ Jeśli ktoś konstruuje 95% przedział ufności (CI) różnicy średnich lub różnicy proporcji, czy wszystkie wartości w CI są jednakowo prawdopodobne? Czy też oszacowanie punktowe jest najbardziej prawdopodobne , z wartościami zbliżonymi do „ogonów” CI mniej...

confidence-interval

56

Biblioteki R do głębokiego uczenia się

Zastanawiałem się, czy są jakieś dobre biblioteki R do głębokiego uczenia sieci neuronowych? Wiem, że tam jest nnet, neuralneti RSNNS, ale żaden z nich nie wydają się wdrożyć głębokie metod nauczania. Szczególnie interesuje mnie nauka bez nadzoru, a następnie nadzorowane uczenie się, a także...

r neural-networks deep-learning rbm deep-belief-networks

56

Regresja logistyczna w R doprowadziła do idealnej separacji (zjawisko Haucka-Donnera). Co teraz?

Staram się przewidzieć wynik binarny przy użyciu 50 ciągłe zmienne objaśniające (w zakresie od najbardziej zmiennych jest do ∞ ). Mój zestaw danych ma prawie 24 000 wierszy. Kiedy biegnę w R, otrzymuję:- ∞-∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit:...

r regression logistic separation

56

Czy „hybryda” między podejściem Fishera i Neymana-Pearsona do testów statystycznych jest rzeczywiście „niespójnym miszmaszem”?

Istnieje pewna szkoła myślenia, zgodnie z którą najbardziej rozpowszechnionym podejściem do testowania statystycznego jest „hybryda” między dwoma podejściami: podejściem Fishera i podejściem Neymana-Pearsona; te dwa podejścia, jak głosi twierdzenie, są „niezgodne”, a zatem wynikowa „hybryda” jest...

hypothesis-testing statistical-significance p-value type-i-and-ii-errors history

56

Jakie są różnice między PCA a autoencoderem?

Zarówno PCA, jak i autoencoder mogą redukować demensję, więc jaka jest między nimi różnica? W jakiej sytuacji powinienem używać jednego nad

machine-learning pca neural-networks autoencoders

56

Regularyzacja L2 jest równoważna z Prior Gaussa

Czytam to i intuicyjnie widzę to, ale jak przejść od regularyzacji L2 do stwierdzenia, że analitycznie jest to Przeor Gaussa? To samo dotyczy twierdzenia, że L1 jest równoważne wcześniejszemu Laplaceanowi. Wszelkie dalsze odniesienia byłyby świetne.

regression references regularization

56

Wyzwania dla przemysłu i Kaggle. Czy zbieranie większej liczby obserwacji i dostęp do większej liczby zmiennych jest ważniejsze niż fantazyjne modelowanie?

Mam nadzieję, że tytuł jest oczywisty. W Kaggle większość zwycięzców używa układania w stosy z czasami setkami modeli podstawowych, aby wycisnąć kilka dodatkowych% MSE, dokładność ... Ogólnie rzecz biorąc, z twojego doświadczenia wynika, jak ważne jest wymyślne modelowanie, takie jak układanie w...

large-data stacking collecting-data kaggle

56

Czy błędne jest sformułowanie „1 na 80 zgonów jest spowodowany wypadkiem samochodowym”, ponieważ „1 na 80 osób umiera w wyniku wypadku samochodowego?”

Oświadczenie pierwsze (S1): „Jedna na 80 ofiar śmiertelnych jest spowodowana wypadkiem samochodowym”. Oświadczenie drugie (S2): „Jedna na 80 osób umiera w wyniku wypadku samochodowego”. Teraz osobiście nie widzę żadnej różnicy między tymi dwoma stwierdzeniami. Pisząc, uważałbym je za wymienne...

interpretation risk

55

Alternatywy dla regresji logistycznej w R.

Chciałbym mieć tyle algorytmów, które wykonują to samo zadanie, co regresja logistyczna. To są algorytmy / modele, które mogą przewidywać odpowiedź binarną (Y) za pomocą zmiennej objaśniającej (X). Byłbym zadowolony, jeśli po nazwiesz algorytm, pokażesz również, jak go zaimplementować w R. Oto...

r regression logistic classification predictive-models

55

Który pseudo

Mam SPSSdane wyjściowe dla modelu regresji logistycznej. Dane wyjściowe zgłaszają dwie miary dopasowania modelu Cox & Snelloraz Nagelkerke. Więc z reguły, które z tych mierników jako pasujące do modelu?R2R²R^² Lub który z tych dopasowanych wskaźników jest zwykle zgłaszany w...

logistic goodness-of-fit r-squared

55

Krytyka teorii przyczynowości Pearl

W 2000 roku Judea Pearl opublikowała Causality . Jakie kontrowersje otaczają tę pracę? Jakie są jego główne

causality

55

Pytania dotyczące sposobu określania efektów losowych w lmer

Niedawno zmierzyłem, w jaki sposób znaczenie nowego słowa jest uzyskiwane na podstawie wielokrotnych ekspozycji (ćwiczenie: od 1 do 10 dnia) poprzez pomiar ERP (EEG), gdy słowo było oglądane w różnych kontekstach. Kontrolowałem także właściwości kontekstu, na przykład jego przydatność do odkrywania...

r mixed-model lme4-nlme random-effects-model

55

Zaawansowane książki z zaleceniami statystycznymi

Na tej stronie znajduje się kilka wątków z zaleceniami dotyczącymi książek na temat statystyk wprowadzających i uczenia maszynowego, ale szukam tekstu na temat zaawansowanych statystyk, w tym w kolejności priorytetów: maksymalne prawdopodobieństwo, uogólnione modele liniowe, analiza głównych...

generalized-linear-model pca maximum-likelihood references saddlepoint-approximation

55

Co jest takiego fajnego w twierdzeniu o reprezentacji de Finetti?

Z teorii statystyki Mark J. Schervish (strona 12): Chociaż twierdzenie DeFinetti o reprezentacji 1.49 ma zasadnicze znaczenie dla motywowania modeli parametrycznych, w rzeczywistości nie jest wykorzystywane w ich implementacji. W jaki sposób twierdzenie jest kluczowe dla modeli...

probability modeling mathematical-statistics parametric

55

Wybór pomiędzy LM i GLM dla zmiennej odpowiedzi przekształconej logarytmicznie

Staram się zrozumieć filozofię stojącą za używaniem Uogólnionego Modelu Liniowego (GLM) vs Modelu Liniowego (LM). Poniżej utworzyłem przykładowy zestaw danych, w którym: log( y) = x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon W przykładzie nie ma błędu w funkcji wielkości y , więc założyłbym , że...

r generalized-linear-model linear-model gamma-distribution link-function

55

Test Walda na regresję logistyczną

O ile rozumiem test Walda w kontekście regresji logistycznej służy do ustalenia, czy określona zmienna predykcyjna jest znacząca, czy nie. Odrzuca hipotezę zerową odpowiadającego współczynnikowi równego zero.XXX Test polega na podzieleniu wartości współczynnika przez błąd standardowy...

logistic z-statistic

55

Dlaczego skurcz działa?

W celu rozwiązania problemów związanych z wyborem modelu, szereg metod (LASSO, regresja kalenicy itp.) Zmniejszy współczynniki zmiennych predykcyjnych w kierunku zera. Szukam intuicyjnego wyjaśnienia, dlaczego poprawia to zdolność przewidywania. Jeśli prawdziwy efekt zmiennej był w rzeczywistości...

lasso regularization ridge-regression intuition shrinkage

55

Jakie są przykłady praktyk anachronicznych w statystyce?

Mam na myśli praktyki, które nadal utrzymują swoją obecność, mimo że problemy (zwykle obliczeniowe), z którymi zostały zaprojektowane, zostały w większości rozwiązane. Na przykład wymyślono korektę ciągłości Yatesa w celu przybliżenia dokładnego testu Fishera za pomocą testu , ale nie jest to już...

references philosophical

55

Bardziej ostateczne omówienie wyboru zmiennych

tło Prowadzę badania kliniczne w medycynie i odbyłem kilka kursów statystycznych. Nigdy nie publikowałem pracy z wykorzystaniem regresji liniowej / logistycznej i chciałbym prawidłowo dokonywać wyboru zmiennych. Interpretowalność jest ważna, więc nie ma wymyślnych technik uczenia maszynowego....

regression feature-selection model-selection