Statystyki i duże zbiory danych

11
Ridge i LASSO otrzymali strukturę kowariancji?

Po przeczytaniu rozdziału 3 w elementach statystycznego uczenia się (Hastie, Tibshrani i Friedman) zastanawiałem się, czy możliwe jest wdrożenie słynnych metod skurczu cytowanych w tytule tego pytania ze względu na strukturę kowariancji, tj. Zminimalizowanie (być może bardziej ogólnego ) ilość (...

11
Parametr dyspersji na wyjściu GLM

Uruchomiłem glm w R, i summary()mówi, że w pobliżu dolnej części wyjścia (Dispersion parameter for gaussian family taken to be 28.35031) Zrobiłem trochę szperania w Google i dowiedziałem się, że parametr dyspersji służy do dopasowania do standardowych błędów. Mam nadzieję, że ktoś mógłby podać...

11
Resztki Schoenfelda

Czy w modelu proporcjonalnego hazardu Coxa z wieloma zmiennymi, jeśli reszty Schoenfelda nie są płaskie dla jednej ze zmiennych, czy to unieważnia cały model, czy można po prostu zignorować zmienną o niskiej wydajności? Oznacza to, że interpretuj współczynniki dla innych zmiennych, ale nie...

11
Badanie symulacyjne: jak wybrać liczbę iteracji?

Chciałbym wygenerować dane za pomocą „Modelu 1” i dopasować je do „Modelu 2”. Podstawową ideą jest zbadanie właściwości odporności „Modelu 2”. Szczególnie interesuje mnie wskaźnik pokrycia 95% przedziału ufności (w oparciu o normalne przybliżenie). Jak ustawić liczbę uruchomień iteracji? Czy to...

11
Próbujesz obliczyć indeks Gini w dystrybucji reputacji StackOverflow?

Próbuję obliczyć indeks Gini dla dystrybucji reputacji SO za pomocą SO Data Explorer. Równanie, które próbuję zaimplementować, jest następujące: Gdzie:n= liczba użytkowników w witrynie; i= identyfikator seryjny użytkownika (1 - 1 225 000); yi= reputacja użytkownikai.sol(S) =1n - 1( n + 1 - 2 (...

11
Dobre książki o eksploracji tekstu?

Cześć. Chciałem wiedzieć, czy są jakieś dobre książki na temat eksploracji tekstu i klasyfikacji z niektórymi studiami przypadków ?. Jeśli nie, wystarczyłyby niektóre dokumenty / czasopisma dostępne publicznie. Jeśli zilustrują swoje przykłady R jeszcze lepiej. Nie szukam instrukcji krok po kroku,...