Statystyki i duże zbiory danych

15
Klasyfikator vs model vs estymator

Jaka jest różnica między klasyfikatorem, modelem a estymatorem? Z tego co mogę powiedzieć: estymator jest predyktorem znalezionym na podstawie algorytmu regresji klasyfikator to predyktor znaleziony na podstawie algorytmu klasyfikacji model może być zarówno estymatorem, jak i...

15
Znaczenie ukrytych cech?

Próbuję zrozumieć modele faktoryzacji macierzy dla systemów rekomendujących i zawsze czytam „ukryte funkcje”, ale co to znaczy? Wiem, co oznacza funkcja dla zestawu danych szkoleniowych, ale nie jestem w stanie zrozumieć idei ukrytych funkcji. Każdy artykuł na ten temat, który mogę znaleźć, jest po...

15
Regresja w ustawieniu

Próbuję zobaczyć, czy wybrać regresję grzbietu , LASSO , regresję głównego składnika (PCR), czy częściowe najmniejsze kwadraty (PLS) w sytuacji, gdy istnieje duża liczba zmiennych / cech ( ppp ) i mniejsza liczba próbek ( n<pn<pn np>10np>10np>10n Zmienne ( i Y ) są skorelowane ze sobą w...

15
Wartości P równe 0 w teście permutacji

Mam dwa zestawy danych i chciałbym wiedzieć, czy są one znacząco różne, czy nie (pochodzi od „ Dwie grupy są znacząco różne? Test do użycia ”). Zdecydowałem się użyć testu permutacji, wykonując następujące czynności w języku R: permutation.test <- function(coding, lncrna) { coding <-...

15
Jak dziwna jest grupa wypadków lotniczych?

Oryginalne pytanie (7/25/14): Czy ten cytat z mediów informacyjnych ma sens, czy jest lepszy statystyczny sposób patrzenia na tempo ostatnich wypadków lotniczych? Jednak Barnett zwraca również uwagę na teorię rozkładu Poissona, co oznacza, że ​​krótkie przerwy między wypadkami są w...

15
Jak dopasować model mieszanki do grupowania

Mam dwie zmienne - X i Y i muszę ustawić klaster maksymalnie (i optymalnie) = 5. Załóżmy, że idealny wykres zmiennych wygląda następująco: Chciałbym zrobić z tego 5 klastrów. Coś takiego: Dlatego myślę, że jest to model mieszany z 5 klastrami. Każda grupa ma punkt środkowy i okrąg zaufania...

15
2SLS, ale drugi etap Probit

Próbuję użyć analizy zmiennych instrumentalnych do wnioskowania o przyczynowości na podstawie danych obserwacyjnych. Natknąłem się na dwustopniową regresję metodą najmniejszych kwadratów (2SLS), która prawdopodobnie rozwiąże problem endogeniczności w moich badaniach. Chciałbym jednak, aby...