Statystyki i duże zbiory danych

35
PCA i podział pociąg / test

Mam zestaw danych, dla którego mam wiele zestawów etykiet binarnych. Dla każdego zestawu etykiet uczę klasyfikatora, oceniając go poprzez walidację krzyżową. Chcę zmniejszyć wymiarowość za pomocą analizy głównych składników (PCA). Moje pytanie brzmi: Czy możliwe jest wykonanie PCA raz dla całego...

35
Co to jest pozostały błąd standardowy?

Podczas uruchamiania modelu regresji wielokrotnej w R jednym z wyjść jest resztkowy błąd standardowy wynoszący 0,0589 przy 95161 stopniach swobody. Wiem, że 95.161 stopni swobody wynika z różnicy między liczbą obserwacji w mojej próbce a liczbą zmiennych w moim modelu. Jaki jest pozostały błąd...

35
Regresja logistyczna: test chi-kwadrat anova vs. istotność współczynników (anova () vs podsumowanie () w R)

Mam logistyczny model GLM z 8 zmiennymi. Przeprowadziłem test chi-kwadrat w R, anova(glm.model,test='Chisq')a 2 zmienne okazały się predykcyjne, gdy zamówiono je u góry testu, i nie tak bardzo, gdy zamówiono u dołu. summary(glm.model)Sugeruje, że ich współczynniki są nieznaczne (wysoka wartość p)....

35
Jak rozwiązać paradoks Simpsona?

Paradoks Simpsona to klasyczna łamigłówka omawiana na wstępnych kursach statystyki na całym świecie. Jednak mój kurs był satysfakcjonujący, aby po prostu zauważyć, że istniał problem i nie przedstawił rozwiązania. Chciałbym wiedzieć, jak rozwiązać paradoks. To znaczy, w obliczu paradoksu Simpsona,...

35
Wykrywanie wartości odstających w szeregach czasowych (LS / AO / TC) przy użyciu pakietu tsoutliers w R. Jak reprezentować wartości odstające w formacie równania?

Komentarz: Po pierwsze chciałbym powiedzieć wielkie dziękuję do autora nowego tsoutliers pakietu, który implementuje Chen i Liu wykrywania szeregi czasowe poboczna, które zostało opublikowane w Journal of American Statistical Association w 1993 roku w oprogramowanie open source .RRR Pakiet...

35
Najlepsza metoda na krótkie serie czasowe

Mam pytanie związane z modelowaniem krótkich szeregów czasowych. Nie jest kwestią, czy je wymodelować , ale jak. Jaką metodę poleciłbyś do modelowania (bardzo) krótkich szeregów czasowych (powiedzmy o długości )? Przez „najlepszy” rozumiem tu najbardziej niezawodny, czyli najmniej podatny na błędy...