Statystyki i duże zbiory danych

13
Warunki interakcji i wielomiany wyższego rzędu

Gdybym był zainteresowany dopasowaniem interakcji dwukierunkowych między liniową zmienną objaśniającą a inną zmienną objaśniającą która ma kwadratowy związek ze zmienną zależną , czy musiałbym uwzględnić zarówno interakcję ze składową kwadratową, jak i interakcję z liniową komponent w modelu? Np...

13
Odległość euklidesowa i podobieństwo

Właśnie pracuję z książką Collective Intelligence (autor: Toby Segaran) i natknąłem się na euklidesową ocenę odległości. W książce autor pokazuje, jak obliczyć podobieństwo między dwiema tablicami rekomendacji (tj. .person×movie↦score)person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto...

13
Co jest warunkowe w tabeli awaryjnej?

Merriam-Webster Słownik definiuje warunkowe wydarzenie lub sytuację jako 1 : likely but not certain to happen : possible 2 : not logically necessary; especially : empirical 3 a : happening by chance or unforeseen causes b : subject to chance or unseen effects : unpredictable c : intended for use...

13
Zrozumienie MCMC i algorytmu Metropolis-Hastings

W ciągu ostatnich kilku dni starałem się zrozumieć, jak działa Markov Chain Monte Carlo (MCMC). W szczególności starałem się zrozumieć i wdrożyć algorytm Metropolis-Hastings. Do tej pory myślę, że mam ogólne zrozumienie algorytmu, ale jest kilka rzeczy, które nie są dla mnie jeszcze jasne. Chcę...

13
Czy standardowe błędy ładowania i przedziały ufności są odpowiednie w regresjach, w których naruszone jest założenie homoscedastyczności?

Jeśli w standardowych regresjach OLS zostaną naruszone dwa założenia (normalny rozkład błędów, homoscedastyczność), to czy standardowe błędy początkowe i przedziały ufności są odpowiednią alternatywą dla uzyskania znaczących wyników w odniesieniu do znaczenia współczynników regresora? Czy testy...

13
Alternatywa dla jednokierunkowej wariancji ANOVA

Chciałbym porównać średnie dla trzech grup równych rozmiarów (równy rozmiar próbki jest mały, 21). Średnie każdej grupy są normalnie rozmieszczone, ale ich wariancje są nierówne (testowane przez Levene'a). Czy transformacja jest najlepszą drogą w tej sytuacji? Czy powinienem najpierw rozważyć coś...

13
Duża próba asymptotyczna / teoria - po co się tym przejmować?

Mam nadzieję, że to pytanie nie zostanie oznaczone jako „zbyt ogólne” i mam nadzieję, że rozpocznie się dyskusja, która przyniesie korzyści wszystkim. W statystykach poświęcamy dużo czasu na naukę teorii dużych próbek. Jesteśmy głęboko zainteresowani oceną asymptotycznych właściwości naszych...

13
Ustawić seed przed każdym blokiem kodu lub raz na projekt?

Standardową wskazówką jest ustawienie losowego materiału siewnego, aby można było odtworzyć wyniki. Ponieważ jednak ziarno jest posuwane naprzód w miarę losowania liczb pseudolosowych, wyniki mogą ulec zmianie, jeśli jakikolwiek fragment kodu losuje dodatkową liczbę. Na pierwszy rzut oka kontrola...

13
Jak obliczyć główne składniki obrócone varimax w R?

Uruchomiłem PCA na 25 zmiennych i wybrałem 7 najlepszych komputerów za pomocą prcomp. prc <- prcomp(pollutions, center=T, scale=T, retx=T) Następnie wykonałem obrót varimax na tych elementach. varimax7 <- varimax(prc$rotation[,1:7]) A teraz chcę varimax obrócić dane obrócone PCA (ponieważ...