Statystyki i duże zbiory danych

39

Tryb, klasa i typ obiektów R.

Zastanawiałem się, jakie są różnice między trybem, klasą i typem R obiektów? Typ obiektu R można uzyskać za pomocą funkcji typeof (), mode by mode () i class by class (). Jakieś inne podobne funkcje i koncepcje, za którymi tęskniłem? Dziękuję i

r

39

Ranga w R - kolejność malejąca [zamknięty]

Szukam rankingu danych, które w niektórych przypadkach większa wartość ma rangę 1. Jestem stosunkowo nowy w R, ale nie widzę, jak mogę dostosować to ustawienie w funkcji rangi. x <- c(23,45,12,67,34,89) rank(x) generuje: [1] 2 4 1 5 3 6 kiedy chcę, żeby to było: [1] 5 3 6 2 4 1 Zakładam,...

r

39

Graficzny przegląd danych (podsumowanie) w R

Jestem pewien, że wcześniej spotkałem taką funkcję w pakiecie R. Ale po rozległym Googlingu nigdzie nie mogę jej znaleźć. Funkcja, o której myślę, wygenerowała podsumowanie graficzne dla danej zmiennej, generując dane wyjściowe z niektórymi wykresami (histogram i być może wykres z pudełkiem i...

r data-visualization descriptive-statistics eda

39

Regresja najmniejszego kąta vs. lasso

Regresja przy najmniejszym kącie i lasso mają tendencję do tworzenia bardzo podobnych ścieżek regularyzacji (identycznych, z wyjątkiem przypadków, gdy współczynnik przekracza zero). Oba mogą być skutecznie dopasowane za pomocą praktycznie identycznych algorytmów. Czy jest jakiś praktyczny powód,...

regression lasso

39

Model regresji logistycznej nie jest zbieżny

Mam dane na temat lotów linii lotniczych (w ramce danych o nazwie flights) i chciałbym sprawdzić, czy czas lotu ma jakikolwiek wpływ na prawdopodobieństwo znacznie opóźnionego przybycia (co oznacza 10 lub więcej minut). Uznałem, że użyję regresji logistycznej, z czasem lotu jako predyktorem i czy...

r logistic separation

39

Jakie jest znaczenie „.” (Kropka) w R?

Właśnie czytam książkę „R in a Nutshell”. I wygląda na to, że pominąłem część, w której „.” jak w „sample.formula” zostało wyjaśnione. > sample.formula <- as.formula(y~x1+x2) Czy próbka jest przedmiotem z formułą pola jak w innych językach? A jeśli tak, to jak mogę dowiedzieć się, jakie...

r

39

Jak interpretować i zgłaszać eta kwadrat / częściowy eta kwadrat w statystycznie istotnych i nieistotnych analizach?

Mam dane, które mają wartości eta do kwadratu i częściowe wartości eta do kwadratu obliczone jako miara wielkości efektu dla średnich różnic w grupie. Jaka jest różnica między eta kwadratem a częściowym eta kwadratem? Czy można je interpretować przy użyciu tych samych wytycznych Cohena (Myślę, że...

anova statistical-significance effect-size

39

W jaki sposób centrowanie danych pozbywa się przechwytywania w regresji i PCA?

Ciągle czytam o przypadkach, w których centrujemy dane (np. Z regularyzacją lub PCA) w celu usunięcia przechwytywania (jak wspomniano w tym pytaniu ). Wiem, że to proste, ale trudno mi intuicyjnie to zrozumieć. Czy ktoś mógłby podać intuicję lub odniesienie, które mogę...

regression pca centering

39

Dlaczego prawo dużych liczb nie ma zastosowania w przypadku ceny akcji Apple?

Oto artykuł z czasów nowojorskich zatytułowany „Apple konfrontuje prawo wielkich liczb” . Stara się wyjaśnić wzrost cen akcji Apple za pomocą prawa wielkich liczb. Jakie błędy statystyczne (lub matematyczne) popełnia ten

probability central-limit-theorem law-of-large-numbers statistics-in-media

39

Symulacja analizy mocy regresji logistycznej - zaprojektowane eksperymenty

To pytanie jest odpowiedzią na odpowiedź udzieloną przez @Greg Snow na pytanie, które zadałem, dotyczące analizy mocy z regresją logistyczną i SAS Proc GLMPOWER. Jeśli projektuję eksperyment i przeanalizuję wyniki w silnej regresji logistycznej, jak mogę użyć symulacji (i tutaj ) do...

r logistic generalized-linear-model simulation power-analysis

39

Czy potrzebna jest standaryzacja przed dopasowaniem regresji logistycznej?

Moje pytanie brzmi: czy musimy dopasować zestaw danych, aby upewnić się, że wszystkie zmienne mają tę samą skalę, między [0,1], przed dopasowaniem regresji logistycznej. Formuła jest następująca: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} Mój...

regression logistic standardization

39

Używanie LASSO z pakietu lars (lub glmnet) w R do wyboru zmiennych

Przepraszam, jeśli to pytanie jest trochę podstawowe. Chciałbym użyć selekcji zmiennych LASSO dla modelu wielokrotnej regresji liniowej w R. Mam 15 predyktorów, z których jeden jest kategoryczny (czy to spowoduje problem?). Po ustawieniu mojego i Y używam następujące polecenia:xxxyyy model =...

feature-selection lasso glmnet lars

39

Czy zmienne towarzyszące, które nie są istotne statystycznie, powinny być „utrzymywane” podczas tworzenia modelu?

Mam kilka zmiennych towarzyszących w moich obliczeniach dla modelu i nie wszystkie są istotne statystycznie. Czy powinienem usunąć te, które nie są? To pytanie omawia to zjawisko, ale nie odpowiada na moje pytanie: Jak interpretować nieistotny wpływ zmiennej towarzyszącej w ANCOVA? W odpowiedzi...

regression statistical-significance ancova model predictor

39

Empiryczne uzasadnienie dla jednej standardowej reguły błędu przy zastosowaniu weryfikacji krzyżowej

Czy są jakieś badania empiryczne uzasadniające stosowanie jednej standardowej reguły błędu na korzyść parsimony? Oczywiście zależy to od procesu generowania danych, ale wszystko, co analizuje duży zbiór zbiorów danych, byłoby bardzo interesujące. „Jedna standardowa reguła błędu” jest stosowana...

cross-validation model-selection regularization

39

Powiązania pomiędzy

Powiedzmy, że mam dwie tablice 1-wymiarowe, za1a1a_1 i za2)a2a_2 . Każdy zawiera 100 punktów danych. 1 jest rzeczywiste dane i 2 jest przewidywania modelu. W tym przypadku, R 2 wartość będzie: R 2 = 1 - S S r e sza1a1a_1za2)a2a_2R2)R2R^2R2)= 1 - S.S.r e sS.S.t o t ( 1 ) .R2=1−SSresSStot (1). R^2...

correlation r-squared

39

Czy Bayesian przyznałby, że istnieje jedna stała wartość parametru?

W analizie danych bayesowskich parametry są traktowane jak zmienne losowe. Wynika to z bayesowskiej subiektywnej koncepcji prawdopodobieństwa. Ale czy Bayesianie teoretycznie uznają, że istnieje jedna prawdziwa stała wartość parametru w „prawdziwym świecie”? Wydaje się, że oczywistą odpowiedzią...

probability bayesian parameterization

39

Wykresy PP vs. wykresy QQ

Jaka jest różnica między wykresami prawdopodobieństwa, wykresami PP i wykresami QQ podczas próby analizy dopasowanego rozkładu do

probability data-visualization goodness-of-fit qq-plot

39

Replikacja „solidnej” opcji Staty w R.

Próbowałem zreplikować wyniki opcji Stata robustw R. Użyłem rlmpolecenia z pakietu MASS, a także polecenia lmrobz pakietu „robustbase”. W obu przypadkach wyniki są zupełnie inne niż „solidna” opcja w Stacie. Czy ktoś może zasugerować coś w tym kontekście? Oto wyniki, które uzyskałem, gdy...

r stata robust robust-standard-error

39

Bayesowski ekwiwalent dwóch próbnych testów t?

Nie szukam metody plug and play, takiej jak BEST in R, ale raczej matematyczne wyjaśnienie, jakie są niektóre metody bayesowskie, których mogę użyć do przetestowania różnicy między średnią dwóch próbek.

hypothesis-testing bayesian t-test

39

LDA vs word2vec

Próbuję zrozumieć, jakie jest podobieństwo między Latent Dirichlet Allocation i word2vec do obliczania podobieństwa słów. Jak rozumiem, LDA odwzorowuje słowa na wektor prawdopodobieństwa ukrytych tematów, podczas gdy word2vec odwzorowuje je na wektor liczb rzeczywistych (związanych z rozkładem...

machine-learning self-study natural-language latent-variable word2vec