Statystyki i duże zbiory danych

18
Nieszablonowe opcje analizy danych

Używam SAS profesjonalnie od prawie 5 lat. Mam go zainstalowanego na swoim laptopie i często muszę analizować zestawy danych z 1000-2 000 zmiennych i setkami tysięcy obserwacji. Szukałem alternatyw dla SAS, które pozwalają mi przeprowadzać analizy zbiorów danych o podobnych rozmiarach. Jestem...

18
, Symulacja w okresie prognozy

Mam dane szeregów czasowych i użyłem jako modelu do dopasowania danych. jest wskaźnikiem zmienną losową, która jest albo 0 (gdy nie widzę rzadkie zdarzenie) lub 1 (gdy widzę rzadkie zjawisko). W oparciu o wcześniejsze obserwacje, które mam dla , mogę opracować model dla przy użyciu metodologii...

18
Jak przewidzieć lub rozszerzyć linie regresji w ggplot2?

Mam ramkę danych, która zawiera dwie serie czasowe: daty i numery wersji wydań Emacs i Firefox. Za pomocą jednego polecenia ggplot2 łatwo jest utworzyć wykres, który używa less (w sposób, który wygląda nieco zabawnie, co nie mam nic przeciwko), aby zamieniać punkty w linie. Jak mogę przedłużyć...

18
Okresy w historii statystyki

Historię wielu dziedzin nauki można podzielić na niewielką liczbę przedziałów czasowych, które często zaczynają się od ważnego odkrycia. Ale nigdy nie widziałem czegoś podobnego na osi czasu statystyki. Oczywiście istnieje kilka ważnych dat, które można uznać za punkty wyjścia nowego okresu...

18
Krzyżowa walidacja i dostrajanie parametrów

Czy ktoś może mi powiedzieć, co dokładnie daje wynik analizy krzyżowej? Czy to tylko średnia dokładność, czy daje jakiś model z dostrojonymi parametrami? Ponieważ słyszałem gdzieś, że do dostrajania parametrów używana jest walidacja

18
Macierz wariancji-kowariancji w lmer

Wiem, że jedną z zalet modeli mieszanych jest to, że pozwalają one określić macierz wariancji-kowariancji dla danych (symetria złożona, autoregresja, nieustrukturyzowana itp.). Jednak lmerfunkcja w R nie pozwala na łatwą specyfikację tej macierzy. Czy ktoś wie, która struktura lmerużywa domyślnie i...

18
Jak radzić sobie z maszyną SVM z atrybutami kategorialnymi

Mam przestrzeń 35 wymiarów (atrybutów). Mój problem analityczny jest prosty. Spośród 35 wymiarów ponad 25 ma charakter kategoryczny, a każdy atrybut przyjmuje ponad 50 typów wartości. W tym scenariuszu wprowadzenie zmiennej zastępczej również nie będzie dla mnie działać. Jak mogę uruchomić SVM...

18
Duża różnica zdań w oszacowaniu nachylenia, gdy grupy są traktowane jako losowe vs. ustalone w modelu mieszanym

Rozumiem, że używamy modeli efektów losowych (lub efektów mieszanych), gdy uważamy, że niektóre parametry modelu zmieniają się losowo w zależności od czynnika grupującego. Chcę dopasować model, w którym odpowiedź została znormalizowana i wyśrodkowana (nie idealnie, ale całkiem blisko) w obrębie...

18
użycie ciężarów w svyglm vs glm

Chciałbym wiedzieć, jak różni się sposób traktowania ciężarów między svyglmiglm Używam twangpakietu w R do tworzenia ocen skłonności, które są następnie używane jako wagi, w następujący sposób (ten kod pochodzi z