Statystyki i duże zbiory danych

9
Odwrotny problem urodzinowy z wieloma kolizjami

Załóżmy, że miałeś rok obcy o nieznanej długości N. Jeśli masz losową próbkę wspomnianych kosmitów, a niektórzy z nich dzielą urodziny, czy możesz użyć tych danych do oszacowania długości roku? Na przykład, w próbie 100, możesz mieć dwie trojaczki (tj. Dwa urodziny, z których każdy dzieli trzech...

9
Badanie różnic między populacjami

Powiedzmy, że mamy próbkę z dwóch populacji: Ai B. Załóżmy, że te populacje składają się z pojedynczych osób i wybieramy opisywanie poszczególnych osób pod względem cech. Niektóre z tych funkcji są jakościowe (np. Czy jeżdżą do pracy?), A niektóre są liczbowe (np. Ich wysokość). Nazwijmy te...

9
GAMM z zerowymi danymi

Czy można dopasować GAMM (uogólniony model mieszany dodatków) dla danych z zerowym napełnieniem w R? Jeśli nie, to czy można dopasować GAM (uogólniony model addytywny) dla danych z zerowym napełnieniem z ujemnym dwumianowym lub quasi-rozkładem Poissona w R? (Znalazłem funkcje COZIGAM :: zigam i...

9
Dlaczego fakt, że 1 mediana jest niższa niż inna mediana, nie oznacza, że ​​większość w grupie 1 jest mniejsza niż większość w grupie 2?

Uważałem, że poniższe wykresy pudełkowe można interpretować jako „większość mężczyzn jest szybsza niż większość kobiet” (w tym zbiorze danych), przede wszystkim dlatego, że mediana czasu mężczyzn była krótsza niż mediana czasu kobiet. Ale kurs EdX na temat R i quizu statystycznego powiedział mi, że...

9
Adaptacyjny GAM wygładza w mgcv

Książka Simona Wooda na temat GAM i związany z nią pakiet R mgcv są zarówno bardzo szczegółowe, jak i pouczające, jeśli chodzi o teorię GAM i dopasowanie modelu do rzeczywistych i symulowanych danych. W przypadku wygładzania 1D naprawdę nie ma się czym martwić, z wyjątkiem decyzji o wdrożeniu...

9
Dlaczego przedział wiarygodności Bayesa w tej regresji wielomianowej jest tendencyjny, a przedział ufności jest prawidłowy?

Rozważ poniższy wykres, w którym symulowałem dane, w następujący sposób. Patrzymy na wynik binarny dla którego prawdziwe prawdopodobieństwo bycia 1 wskazuje czarna linia. Zależność funkcjonalna między współzmienną i jest wielomianem trzeciego rzędu z łączem logistycznym (więc jest nieliniowa w...

9
Wykryto wielowymiarowe, skorelowane dane oraz najważniejsze cechy / zmienne towarzyszące; testowanie wielu hipotez?

Mam zestaw danych z około 5000 często skorelowanych cech / zmiennych towarzyszących i odpowiedzią binarną. Dane zostały mi przekazane, nie zebrałem ich. Używam Lasso i funkcji zwiększania gradientu do budowy modeli. Używam iteracji, zagnieżdżonej weryfikacji krzyżowej. Podaję największe...

9
Czy implikuje niezależność i ?

Czy implikuje niezależność i ?Cov(f(X),Y)=0∀f(.)Cov(f(X),Y)=0∀f(.)\mathbb{Cov} \left(f(X),Y\right) = 0 \; \forall \; f(.)XXXYYY Znam tylko z następującą definicję niezależności pomiędzy i .XXXYYY fx,y(x,y)=fx(x)fy(y)fx,y(x,y)=fx(x)fy(y) f_{x,y}(x,y) =