Statystyki i duże zbiory danych

29
Pseudo-R2 Interpretacja McFaddena

Mam binarny model regresji logistycznej z pseudo-kwadratem McFaddena wynoszącym 0,192 ze zmienną zależną o nazwie płatność (1 = płatność i 0 = brak płatności). Jaka jest interpretacja tego pseudo R-kwadrat? Czy jest to porównanie względne dla modeli zagnieżdżonych (np. Model 6 zmiennych ma pseudo...

29
Dlaczego mój interwał ładowania jest tak zły?

Chciałem zrobić demonstrację klasową, w której porównuję przedział t z przedziałem ładowania początkowego i obliczę prawdopodobieństwo pokrycia obu. Chciałem, aby dane pochodziły z przekrzywionej dystrybucji, więc postanowiłem wygenerować dane jako exp(rnorm(10, 0, 2)) + 1próbkę o wielkości 10 z...

29
R: Losowy las wyrzucający NaN / Inf w błędzie „wywołanie funkcji zagranicznej” pomimo braku NaN w zbiorze danych [zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo...

29
Regresja do średniej vs błąd gracza

Z jednej strony mam regres do średniej, az drugiej strony błędność hazardzisty . Błąd Hazarda jest zdefiniowany przez Millera i Sanjurjo (2019) jako „błędne przekonanie, że losowe sekwencje mają systematyczną tendencję do odwracania, tj. Że smugi podobnych wyników są bardziej prawdopodobne, że...

29
Czy istnieje wyjaśnienie, dlaczego istnieje tak wiele zjawisk naturalnych, które następują po normalnym rozkładzie?

Myślę, że to fascynujący temat i nie do końca go rozumiem. Jakie prawo fizyki sprawia, że ​​tak wiele zjawisk naturalnych ma rozkład normalny? Wydaje się bardziej intuicyjne, że mieliby jednolity rozkład. Tak trudno mi to zrozumieć i czuję, że brakuje mi niektórych informacji. Czy ktoś może mi...

29
Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

29
Interwał przewidywania ładowania początkowego

Czy jest dostępna technika ładowania początkowego do obliczania przedziałów predykcji dla prognoz punktowych uzyskanych np. Z regresji liniowej lub innej metody regresji (k-najbliższy sąsiad, drzewa regresji itp.)? Jakoś wydaje mi się, że czasami proponowanym sposobem, aby po prostu wyrzucić...