Statystyki i duże zbiory danych

18
Warunkowe oczekiwanie na R-kwadrat

Rozważ prosty model liniowy: yy=X′ββ+ϵyy=X′ββ+ϵ\pmb{y}=X'\pmb{\beta}+\epsilon gdzie ϵi∼i.i.d.N(0,σ2)ϵi∼i.i.d.N(0,σ2)\epsilon_i\sim\mathrm{i.i.d.}\;\mathcal{N}(0,\sigma^2) i X∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p} ,p≥2p≥2p\geq2 aXXX zawiera kolumnę stałych. My pytanie, ponieważ...

18
Czy statystycy zakładają, że nie da się podlać rośliny, czy po prostu używam złych kryteriów wyszukiwania dla regresji krzywoliniowej?

Prawie wszystko, co czytam o regresji liniowej i GLM sprowadza się do tego: gdzie f ( x , β ) jest nie rosnącą lub nie malejącą funkcją x, a β jest parametrem, który oceniasz i testujesz hipotezy na temat. Istnieją dziesiątki funkcji łączenia i przekształceń y i x, dzięki którym y jest funkcją...

18
Odległości Mahalanobisa parami

Muszę obliczyć przykładową odległość Mahalanobisa w R pomiędzy każdą parą obserwacji w macierzy współzmiennych . Potrzebuję rozwiązania, które jest wydajne, tj. Obliczane są tylko odległości, a najlepiej realizowane w C / RCpp / Fortran itp. Zakładam, że , macierz kowariancji populacyjnej, jest...

18
test t na mocno wypaczonych danych

Mam zestaw danych z dziesiątkami tysięcy obserwacji danych o kosztach medycznych. Te dane są mocno przekrzywione w prawo i mają dużo zer. Wygląda to tak dla dwóch grup osób (w tym przypadku dwa przedziały wiekowe z> 3000 obs każda): Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4536.0...

18
MCMC w ograniczonej przestrzeni parametrów?

Próbuję zastosować MCMC do problemu, ale moje priorytety (w moim przypadku są to α∈[0,1],β∈[0,1]α∈[0,1],β∈[0,1]\alpha\in[0,1],\beta\in[0,1] )) są ograniczone do obszaru? Czy mogę użyć normalnego MCMC i zignorować próbki, które wypadną poza strefę ograniczoną (która w moim przypadku wynosi [0,1] ^...