Statystyki i duże zbiory danych

13

Czy AR (1) jest procesem Markowa?

Czy proces AR (1), taki jak jest procesem Markowa?yt= ρ yt - 1+ εtyt=ρyt−1+εty_t=\rho y_{t-1}+\varepsilon_t Jeśli tak, to VAR (1) jest wektorową wersją procesu

time-series

13

Analizuj proporcje

Mam zestaw danych zawierający wiele proporcji, które sumują się do 1. Jestem zainteresowany zmianą tych proporcji wzdłuż gradientu (patrz na przykład dane poniżej). gradient <- 1:99 A1 <- gradient * 0.005 A2 <- gradient * 0.004 A3 <- 1 - (A1 + A2) df <- data.frame(gradient =...

r multinomial

13

Czy istnieje formuła lub reguła określająca prawidłowy sampSize dla randomForest?

Gram z randomForest i odkryłem, że ogólnie zwiększenie sampSize prowadzi do lepszej wydajności. Czy istnieje reguła / formuła / itp., Która sugeruje, jaki powinien być optymalny sampSize, czy też jest to kwestia prób i błędów? Chyba inny sposób sformułowania tego; jakie jest moje ryzyko zbyt małego...

r random-forest

13

Jak uzyskać region elipsy z dwuwymiarowych normalnych danych rozproszonych?

Mam dane, które wyglądają następująco: Próbowałem zastosować rozkład normalny (szacowanie gęstości jądra działa lepiej, ale nie potrzebuję tak dużej precyzji) i działa całkiem dobrze. Wykres gęstości tworzy elipsę. Potrzebuję uzyskać tę funkcję elipsy, aby zdecydować, czy punkt leży w regionie...

r regression pdf bivariate

13

Wielokoliniowość, gdy poszczególne regresje są znaczące, ale VIF są niskie

Mam 6 zmiennych ( ), których używam do przewidywania . Podczas przeprowadzania analizy danych najpierw wypróbowałem wielokrotną regresję liniową. Z tego tylko dwie zmienne były znaczące. Kiedy jednak przeprowadziłem regresję liniową, porównując każdą zmienną indywidualnie z wartością , wszystkie...

multiple-regression multicollinearity vif

13

Różnica między testami jednostronnymi a dwustronnymi?

Studiując kurs statystyki, starałem się zrozumieć różnicę między testami hipotez jedno- i dwustronnych. W szczególności dlaczego test jednostronny odrzuca wartość zerową, podczas gdy test dwustronny

hypothesis-testing

13

Dlaczego funkcje pochodne są używane w sieciach neuronowych?

Na przykład chce się przewidzieć ceny domu i mieć dwie cechy wejściowe: długość i szerokość domu. Czasami jeden zawiera również „wielowymiarowe” funkcje wprowadzania, takie jak obszar, który ma długość * szerokość. 1) Po co uwzględniać funkcje pochodne? Czy sieć neuronowa nie powinna nauczyć się...

machine-learning neural-networks

13

Sekwencja Haltona vs sekwencja Sobola?

Z odpowiedzi z poprzedniego pytania skierowano mnie w stronę sekwencji Haltona, aby stworzyć zestaw wektorów, które pokrywają równomiernie jednolitą przestrzeń próbki. Ale strona wikipedia wspomina, że przede wszystkim wyższe liczby pierwsze są często silnie skorelowane na początku serii. Wydaje...

sampling small-sample quasi-monte-carlo

13

Wyniki szacunków Monte Carlo uzyskane na podstawie próbkowania istotności

Przez ostatni rok pracowałem nad dość istotnym pobieraniem próbek i mam kilka otwartych pytań, z którymi miałem nadzieję uzyskać pomoc. Moje praktyczne doświadczenie z ważnymi schematami pobierania próbek było takie, że czasami mogą one generować fantastyczne oszacowania niskiej wariancji i...

monte-carlo information-theory importance-sampling

13

Problem z e1071 libsvm?

Mam zestaw danych z dwiema nakładającymi się klasami, po siedem punktów w każdej klasie, punkty są w przestrzeni dwuwymiarowej. W R i biegnę svmz e1071pakietu, aby zbudować oddzielną hiperpłaszczyznę dla tych klas. Używam następującego polecenia: svm(x, y, scale = FALSE, type = 'C-classification',...

r machine-learning svm libsvm e1071

13

Ruby jako stół roboczy statystyk

To pytanie dotyczy również Pythona jako stołu roboczego statystyk i przoduje jako stół roboczy statystyk . Wiem, że istnieje ogromna dyskusja na temat Ruby kontra Python, ale nie o to chodzi w tym pytaniu. Pomyślałem, że Ruby jest szybszy od Pythona i ma bardzo naturalną składnię, co może pomóc mi...

r python software ruby

13

Szybkie alternatywy dla algorytmu EM

Czy istnieją jakieś szybkie alternatywy dla algorytmu EM do uczenia się modeli z ukrytymi zmiennymi (zwłaszcza pLSA)? Nie przeszkadza mi poświęcanie precyzji na rzecz

machine-learning optimization expectation-maximization lsa

13

Dwuwymiarowy Kołmogorow-Smirnov

Chciałbym przeprowadzić kilka dwuwymiarowych testów Kołmogorowa-Smironowa, aby ustalić, czy rozkład dwuwymiarowy pasuje do odniesienia. Czy jest jakiś pakiet lub aplikacja, z której mógłbym korzystać w stosunkowo prosty sposób? Czy istnieje inny preferowany algorytm? Mam tylko podstawową wiedzę...

kolmogorov-smirnov

13

W jaki sposób ekonomiści oceniają operacje na czarnym rynku?

Przeprowadziłem wiele badań nad przestępczością zorganizowaną w Azji Wschodniej w ramach projektu mającego na celu przysługę mojemu przyjacielowi, autorowi, i zauważyłem, że byli znani ekonomiści i dziennikarze, którzy łącznie oceniają wartość operacji na czarnym rynku na całym świecie . Jaka...

measurement macroeconomics

13

Co to są testy porcji?

W odpowiedzi na pytanie o wybór modelu w obecności Współliniowość , Frank Harrell zaproponował : Umieść wszystkie zmienne w modelu, ale nie testuj wpływu jednej zmiennej skorygowanej o skutki zmiennych konkurujących ... Testy fragmentów zmiennych konkurencyjnych są potężne, ponieważ zmienne...

r model-selection multicollinearity

13

Jak przekształcić dane porządkowe z kwestionariusza w odpowiednie dane przedziałowe?

Czy istnieją jakieś proste metody przekształcania danych z poziomu porządkowego na poziom przedziałowy (podobnie jak w przypadku odwrotnej)? I wykonalne w Excelu lub SPSS? Mając dane, powiedzmy: 10 pytań na poziomie porządkowym (powiedzmy skalę 0-5, gdzie 0 = „wcale”, 5 = „cały czas”), chcę je...

categorical-data ordinal-data scales psychometrics

13

Dlaczego podniesienie kwadratu

To może być podstawowe pytanie, ale zastanawiałem się, dlaczego wartość w modelu regresji może być po prostu podniesiona do kwadratu, aby uzyskać wartość wyjaśnionej wariancji?RRR Rozumiem, że współczynnik może dać siłę związku, ale nie rozumiem, jak proste podniesienie tej wartości do kwadratu...

regression correlation r-squared

13

Po co używać rozkładu beta parametru Bernoulliego do hierarchicznej regresji logistycznej?

Obecnie czytam doskonałą książkę Kruschke „Doing Bayesian Data Analysis”. Jednak rozdział dotyczący hierarchicznej regresji logistycznej (rozdział 20) jest nieco mylący. Rysunek 20.2 opisuje hierarchiczną regresję logistyczną, w której parametr Bernoulliego jest zdefiniowany jako funkcja liniowa...

regression bayesian logistic multilevel-analysis

13

Znajdowanie najlepszych funkcji w modelach interakcji

Mam listę białek z ich wartościami funkcji. Przykładowa tabela wygląda następująco: ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 Rzędy to białka, a kolumny to cechy. Mam również listę białek, które również wchodzą w interakcje; na przykład...

machine-learning statistical-significance feature-selection networks

13

Koncepcyjne zrozumienie średniego błędu kwadratowego i średniego odchylenia odchylenia

Chciałbym uzyskać koncepcyjne zrozumienie Root Mean Squared Error (RMSE) i Mean Bias Deviation (MBD). Po obliczeniu tych miar dla własnych porównań danych często byłem zakłopotany stwierdzeniem, że RMSE jest wysoki (na przykład 100 kg), podczas gdy MBD jest niski (na przykład mniej niż 1%). Mówiąc...

standard-deviation bias