Statystyki i duże zbiory danych

16

Analiza punktu zmiany za pomocą R's nls ()

Próbuję zaimplementować analizę „punktu zmiany” lub regresję wielofazową nls()w R. Oto kilka fałszywych danych, które stworzyłem . Formuła, której chcę użyć do dopasowania danych, to: y= β0+ β1x + β2)max ( 0 , x - δ)y=β0+β1x+β2)max(0,x-δ)y = \beta_0 + \beta_1x + \beta_2\max(0,x-\delta) Powinno...

r regression change-point nls

16

Strategia decydowania o odpowiednim modelu danych zliczania

Jaka jest właściwa strategia przy podejmowaniu decyzji, którego modelu użyć z danymi zliczania? Mam dane, które muszę zamodelować jako model wielopoziomowy i zalecono mi (na tej stronie), że najlepszym sposobem jest to poprzez błędy lub MCMCglmm. Jednak wciąż próbuję dowiedzieć się o statystykach...

poisson-distribution generalized-linear-model negative-binomial overdispersion

16

Co to są powiązane dane w kontekście współczynnika korelacji rang?

Nie jestem w dziedzinie statystyki. Podczas czytania o współczynnikach korelacji rang widziałem słowo „powiązane dane”. Co to są powiązane dane? Jaki jest przykład powiązanych

correlation nonparametric ranks

16

Jakie są prawidłowe wartości precyzji i przywołania, gdy mianownik równa się 0?

Precyzja jest zdefiniowana jako: p = prawdziwe pozytywy / (prawdziwe pozytywy + fałszywe pozytywy) Jaka jest wartość precyzji, jeśli (pozytywne pozytywy + fałszywe pozytywy) = 0? Czy to po prostu niezdefiniowane? To samo pytanie do przypomnienia: r = prawdziwe pozytywy / (prawdziwe...

precision-recall

16

Założenia analizy skupień

Przepraszam za podstawowe pytanie, jestem nowy w tej formie analizy i jak dotąd mam bardzo ograniczone rozumienie zasad. Zastanawiałem się tylko, czy wiele z parametrycznych założeń dla testów wielowymiarowych / jednowymiarowych ma zastosowanie do analizy skupień? Wiele źródeł informacji, które...

clustering assumptions

16

Jak obliczyć przedziały ufności dla d Cohena?

Obliczyłem współczynnik d Cohena dla współczynników regresji (na podstawie statystyki t), ilorazów szans i różnic średnich, mając nadzieję na połączenie wyników w metaanalizie i zobaczenie, jak to działa. Jednak w Stacie nie wydaje się, abyś mógł łączyć te wyniki bez przedziałów ufności dla d...

cohens-d

16

Kiedy właściwe byłoby zgłaszanie wariancji zamiast odchylenia standardowego?

Przeprowadziłem analizę, w której zamodelowałem różne składniki wariancji. Podczas raportowania wyników w tabeli o wiele bardziej zwięzłe jest zgłaszanie standardowych odchyleń zamiast odchyleń. To prowadzi mnie do pytania - czy kiedykolwiek istnieje powód, aby zgłaszać wariancję zamiast...

standard-deviation variance tables

16

Intuicyjne wyjaśnienie udziału w sumie dwóch normalnie rozmieszczonych zmiennych losowych

Jeśli mam dwie normalnie rozmieszczone niezależne zmienne losowe i ze średnimi i i odchyleniami standardowymi i i , że , to (zakładając, że nie popełniłem żadnych błędów) rozkład warunkowy od i podanymi są zwykle rozprowadzane w środki i odchylenie standardowe Y μ X μ Y σ X σ Y X + Y = C X Y C...

normal-distribution conditional-probability

16

Pierwsze kroki z sieciami neuronowymi do prognozowania

Potrzebuję zasobów, aby zacząć korzystać z sieci neuronowych do prognozowania szeregów czasowych. Obawiam się zaimplementowania jakiejś pracy, a następnie stwierdzenia, że znacznie przekroczyły potencjał swoich metod. Więc jeśli masz doświadczenie z metodami, które sugerujesz, będzie to jeszcze...

time-series neural-networks forecasting references

16

Kiedy powinienem * nie * pozwolić, aby efekt stały zmieniał się na różnych poziomach efektu losowego w modelu efektów mieszanych?

Biorąc pod uwagę przewidywaną zmienną (P), efekt losowy (R) i efekt stały (F), można by dopasować dwa * modele efektów mieszanych ( składnia Lme4 ): m1 = lmer( P ~ (1|R) + F ) m2 = lmer( P ~ (1+F|R) + F) Jak rozumiem, drugim modelem jest ten, który pozwala, aby efekt stały zmieniał się na...

mixed-model

16

Czy dobrą praktyką jest standaryzacja danych w regresji za pomocą danych panelowych / podłużnych?

Ogólnie rzecz biorąc, standaryzuję moje zmienne niezależne w regresjach, aby właściwie porównać współczynniki (w ten sposób mają one te same jednostki: odchylenia standardowe). Jednak w przypadku danych panelowych / podłużnych nie jestem pewien, jak powinienem ustandaryzować swoje dane, zwłaszcza...

r regression standardization

16

Jak usunąć wszystkie zduplikowane rekordy z wyjątkiem jednego w ramce danych R. [Zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 4 lata temu . Mam ramkę danych, która zawiera zduplikowane...

r

16

Ocena wiarygodności kwestionariusza: wymiarowość, problematyczne elementy i czy użyć alfa, lambda6 lub jakiegoś innego indeksu?

Analizuję wyniki podane przez uczestników biorących udział w eksperymencie. Chcę oszacować wiarygodność mojego kwestionariusza, który składa się z 6 pozycji, mających na celu oszacowanie stosunku uczestników do produktu. Obliczyłem alfa Cronbacha traktującego wszystkie elementy jako pojedynczą...

pca reliability scales psychometrics cronbachs-alpha

16

Trwałość w szeregach czasowych

Czy ktoś mógłby mi powiedzieć, co oznacza „trwałość” w analizie szeregów czasowych? Dotyczy ekonometrii i regresji

regression time-series econometrics terminology

16

Czy można utworzyć wykres „zestawów równoległych” za pomocą R?

Zablokowana . To pytanie i odpowiedzi są zablokowane, ponieważ pytanie jest nie na temat, ale ma znaczenie historyczne. Obecnie nie akceptuje nowych odpowiedzi ani interakcji. Dzięki pytaniu Tormod (zamieszczonemu tutaj ) natrafiłem na fabułę zestawów równoległych . Oto...

r data-visualization categorical-data interactive-visualization

16

Co dokładnie oznacza „gromadzenie danych”?

Pomyślałem, że „łączenie danych” oznacza po prostu łączenie danych, które wcześniej były podzielone na kategorie ... zasadniczo, ignorując kategorie i czyniąc zestaw danych jedną gigantyczną „pulą” danych. Myślę, że to pytanie dotyczy bardziej terminologii niż stosowania statystyk. Na przykład:...

terminology

16

Generowanie losowych próbek z niestandardowej dystrybucji

Próbuję wygenerować losowe próbki z niestandardowego pliku PDF przy użyciu R. Mój pdf to: fX(x)=32(1−x2),0≤x≤1fX(x)=32(1−x2),0≤x≤1f_{X}(x) = \frac{3}{2} (1-x^2), 0 \le x \le 1 Wygenerowałem jednolite próbki, a następnie próbowałem przekształcić je w moją niestandardową dystrybucję. Zrobiłem to,...

r sampling uniform

16

Kiedy łączymy redukcję wymiarowości z klastrowaniem?

Próbuję przeprowadzić klastrowanie na poziomie dokumentu. Skonstruowałem macierz częstotliwości termin-dokument i próbuję zgrupować te wektory o dużych wymiarach za pomocą k-średnich. Zamiast bezpośredniego grupowania, najpierw zastosowałem dekompozycję wektora osobliwego LSA (Latent Semantic...

clustering pca dimensionality-reduction text-mining svd

16

Czy mogę użyć Kołmogorowa-Smirnowa do porównania dwóch rozkładów empirycznych?

Czy można stosować test dobroci dopasowania Kołmogorowa-Smirnowa do porównywania dwóch rozkładów empirycznych w celu ustalenia, czy wydają się pochodzić z tego samego rozkładu podstawowego, zamiast porównywania jednego rozkładu empirycznego z wcześniej określonym rozkładem odniesienia? Pozwól, że...

hypothesis-testing distributions kolmogorov-smirnov

16

Grupowanie danych 1D

Mam zestaw danych, chcę utworzyć klastry na tych danych na podstawie tylko jednej zmiennej (nie ma brakujących wartości). Chcę utworzyć 3 klastry na podstawie tej jednej zmiennej. Którego algorytmu grupowania użyć, k-średnich, EM, DBSCAN itp.? Moje główne pytanie brzmi: w jakich okolicznościach...

clustering