Statystyki i duże zbiory danych

12
Analiza współczynników regresji logistycznej

Oto lista współczynników regresji logistycznej (pierwszy to przechwycenie) -1059.61966694592 -1.23890500515482 -8.57185269220438 -7.50413155570413 0 1.03152408392552 1.19874787949191 -4.88083274930613 -5.77172565873336 -1.00610998453393 Dziwne wydaje mi się, że przecięcie jest tak niskie i...

12
Hierarchiczny model bayesowski (?)

Przepraszam za rzeź w statystycznym żargonie :) Znalazłem tutaj kilka pytań związanych z reklamą i współczynnikiem klikalności. Ale żadne z nich nie bardzo mi pomogło w zrozumieniu mojej hierarchicznej sytuacji. Istnieje podobne pytanie Czy te równoważne reprezentacje tego samego hierarchicznego...

12
Kiedy stosować technikę bootstrap kontra technika bayesowska?

Mam dość skomplikowany problem analizy decyzji obejmujący testy niezawodności, a logiczne podejście (dla mnie) wydaje się obejmować wykorzystanie MCMC do obsługi analizy bayesowskiej. Zasugerowano jednak, że bardziej odpowiednie byłoby zastosowanie metody ładowania początkowego. Czy ktoś mógłby...

12
Szacowanie rozkładu na podstawie danych

Mam próbkę danych wygenerowanych Rprzez rnorm(50,0,1), więc dane oczywiście przyjmują rozkład normalny. Jednak Rnie „zna” tych informacji o dystrybucji danych. Czy istnieje metoda Rpozwalająca oszacować, z jakiego rodzaju dystrybucji pochodzi moja próbka? Jeśli nie, skorzystam z...

12
Bootstrap, Monte Carlo

W ramach pracy domowej postawiono mi następujące pytanie: Zaprojektuj i zaimplementuj badanie symulacyjne w celu zbadania wydajności bootstrapu w celu uzyskania 95% przedziałów ufności na podstawie średniej próbki danych. Twoja implementacja może być w języku R lub SAS. Aspekty wydajności, na...

12
Korelowanie szeregów czasowych objętości

Rozważ następujący wykres: Czerwona linia (lewa oś) opisuje wolumen obrotu pewnymi akcjami. Niebieska linia (prawa oś) opisuje głośność wiadomości na Twitterze dla tego towaru. Na przykład 9 maja (05-09) dokonano około 1.100 milionów transakcji i 4.000 tweetów. Chciałbym obliczyć, czy istnieje...

12
Jak najlepiej komunikować niepewność?

Ogromnym problemem w przekazywaniu wyników obliczeń statystycznych mediom i opinii publicznej jest sposób komunikowania niepewności. Z pewnością większość środków masowego przekazu wydaje się lubić twardą i szybką liczbę, chociaż z wyjątkiem stosunkowo niewielkiej liczby przypadków liczby zawsze...

12
Jak wybierać zmienne w modelu regresji?

Tradycyjne podejście do wyboru zmiennych polega na znalezieniu zmiennych, które najbardziej przyczyniają się do przewidywania nowej odpowiedzi. Ostatnio dowiedziałem się o alternatywie. W modelowaniu zmiennych, które określają efekt leczenia - jak na przykład w badaniu klinicznym farmaceutyka -...

12
Związek między dwoma szeregami czasowymi: ARIMA

Biorąc pod uwagę następujące dwa szeregi czasowe ( x , y ; patrz poniżej), jaka jest najlepsza metoda modelowania związku między długoterminowymi trendami w tych danych? Oba szeregi czasowe mają znaczące testy Durbina-Watsona, gdy są modelowane jako funkcja czasu i żadne z nich nie jest...