Statystyki i duże zbiory danych

15
Zero zawyżonych dystrybucji, czym one są naprawdę?

Próbuję zrozumieć zerowe zawyżone rozkłady. Czym oni są? Jaki jest sens? Jeśli mam dane z wieloma zerami, to mógłbym dopasować regresję logistyczną, najpierw obliczyć prawdopodobieństwo zer, a następnie mógłbym usunąć wszystkie zera, a następnie dopasować regresję regularną, używając mojego wyboru...

15
Jak działa L-BFGS?

Celem artykułu była optymalizacja niektórych parametrów poprzez maksymalizację znormalizowanego prawdopodobieństwa dziennika. Następnie obliczają pochodne częściowe. A potem autorzy wspominają, że optymalizują równanie za pomocą L-BFGS, standardowej procedury quasi-Newtona w celu optymalizacji...

15
Dlaczego musisz skalować dane w KNN

Czy ktoś mógłby mi wyjaśnić, dlaczego należy znormalizować dane, używając K najbliższych sąsiadów. Próbowałem to sprawdzić, ale nadal nie mogę tego zrozumieć. Znalazłem następujący link: https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715 Ale w tym wyjaśnieniu...

15
Co oznacza „rzeczywista” suma wariancji?

Jestem statystą noob, więc proszę, pomóżcie mi tutaj. Moje pytanie brzmi: co właściwie oznacza łączna wariancja ? Kiedy szukam formuły dla wariancji zbiorczej w Internecie, znajduję dużo literatury przy użyciu następującej formuły (na przykład tutaj:

15
logloss vs gini / auc

Przeszkoliłem dwa modele (klasyfikatory binarne przy użyciu h2o AutoML) i chcę wybrać jeden do użycia. Mam następujące wyniki: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431...

15
Kiedy nie można kontrolować zmiennej?

Mogę wymyślić przynajmniej jeden naiwny przykład. Załóżmy, że chcę zbadać związek między X i Z. Podejrzewam także, że Y wpływa na Z, więc kontroluję Y. Jednak, jak się okazuje, X nie wie o mnie, X powoduje Y, a Y powoduje Z. Dlatego kontrolując dla Y „zakrywam” związek między X i Z, ponieważ X jest...