Statystyki i duże zbiory danych

33

Stopnie swobody w teście Hosmera-Lemeshowa

Statystyka testu dla testu Hosmera-Lemeshowa (HLT) dla dobroci dopasowania (GOF) modelu regresji logistycznej jest zdefiniowana następująco: Próbka jest następnie dzielona na decyli, , na decyl jeden oblicza następujące ilości:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d}...

33

(Dlaczego) Czy SOM w stylu Kohonena popadł w niełaskę?

O ile mogę stwierdzić, SOM w stylu Kohonen osiągnęły szczyt około 2005 roku i ostatnio nie spotkały się z tak dużą przychylnością. Nie znalazłem żadnego artykułu, który mówi, że SOM zostały uwzględnione inną metodą lub okazały się równoważne z czymś innym (w każdym razie w większych wymiarach). Ale...

clustering self-organizing-maps

33

Teoria stojąca za częściową regresją najmniejszych kwadratów

Czy ktoś może polecić dobre przedstawienie teorii stojącej za częściową regresją najmniejszych kwadratów (dostępną online) dla kogoś, kto rozumie SVD i PCA? Przejrzałem wiele źródeł online i nie znalazłem niczego, co miałoby właściwe połączenie rygorystyczności i dostępności. Przyjrzałem się...

regression references regularization svd partial-least-squares

33

Czy to najnowocześniejsza metodologia regresji?

Od dłuższego czasu obserwuję zawody Kaggle i zdaję sobie sprawę, że wiele zwycięskich strategii wymaga użycia co najmniej jednego z „wielkich trójek”: workowania, wzmacniania i układania. W przypadku regresji zamiast koncentrowania się na budowaniu jednego najlepszego możliwego modelu regresji,...

predictive-models boosting bagging stacking model-averaging

33

W jaki sposób losowe lasy nie są wrażliwe na wartości odstające?

Czytałem w kilku źródłach, w tym w tym , że Lasy Losowe nie są wrażliwe na wartości odstające (na przykład tak, jak regresja logistyczna i inne metody ML). Jednak dwie intuicje mówią mi inaczej: Ilekroć budowane jest drzewo decyzyjne, wszystkie punkty muszą być klasyfikowane. Oznacza to, że...

random-forest bootstrap outliers cart

33

Wybór właściwej metody łączenia dla hierarchicznego grupowania

Wykonuję hierarchiczne grupowanie danych zebranych i przetworzonych ze zrzutu danych reddit w Google BigQuery. Mój proces jest następujący: Pobierz najnowsze 1000 postów w / r / politics Zbierz wszystkie komentarze Przetwarzaj dane i oblicz n x mmacierz danych (n: users / samples, m: posts /...

clustering distance unsupervised-learning hierarchical-clustering

33

Czy regresja z regularyzacją L1 jest taka sama jak Lasso, a z regularyzacją L2 jest taka sama jak regresja kalenicy? A jak napisać „Lasso”?

Jestem inżynierem oprogramowania uczącym się uczenia maszynowego, szczególnie poprzez kursy uczenia maszynowego Andrew Ng . Badając regresję liniową z regularyzacją , znalazłem terminy, które są mylące: Regresja z regularyzacją L1 lub regularyzacją L2 LASSO Regresja kalenicy Więc moje...

regression terminology lasso regularization ridge-regression

33

Czy można usunąć wartości odstające z danych?

Szukałem sposobu na usunięcie wartości odstających z zestawu danych i znalazłem to pytanie . Jednak w niektórych komentarzach i odpowiedziach na to pytanie ludzie wspomnieli, że usunięcie wartości odstających z danych jest złą praktyką. W moim zestawie danych mam kilka wartości odstających,...

outliers

33

Czy regularyzacja Tichonowa jest taka sama jak regresja grzbietu?

Regulararyzacja Tichonowa i regresja kalenicowa to terminy często używane tak, jakby były identyczne. Czy można dokładnie określić

regression terminology regularization ridge-regression tikhonov-regularization

33

Czy istnieje jakiś problem z nadzorowanym uczeniem się, który (głębokie) sieci neuronowe nie mogłyby oczywiście przewyższyć innych metod?

Widziałem, że ludzie wkładali wiele wysiłku w SVM i jądra i wyglądają całkiem interesująco jako starter w uczeniu maszynowym. Ale jeśli spodziewamy się, że prawie zawsze moglibyśmy znaleźć lepsze rozwiązanie pod względem (głębokiej) sieci neuronowej, jakie jest znaczenie wypróbowania innych metod w...

machine-learning svm kernel-trick supervised-learning

33

Różnice matematyczne między GBM, XGBoost, LightGBM, CatBoost?

Istnieje kilka implementacji rodziny modeli GBDT, takich jak: GBM XGBoost LightGBM Catboost. Jakie są matematyczne różnice między tymi różnymi implementacjami? Catboost wydaje się przewyższać inne implementacje, nawet używając tylko domyślnych parametrów zgodnie z tym testem , ale wciąż jest...

boosting xgboost

33

Dlaczego tanh prawie zawsze jest lepszy niż sigmoid jako funkcja aktywacyjna?

W Andrzej zNg sieci neuronowe i głęboki learning na Coursera mówi, że przy tanhtanhtanh jest prawie zawsze korzystniejsze sigmoidsigmoidsigmoid . Powodem jest to, że daje on wyjść przy użyciu tanhtanhtanh centrum niż około 0 sigmoidsigmoidsigmoid „a 0,5, a to«sprawia, że uczenie się do następnej...

machine-learning neural-networks backpropagation sigmoid-curve

32

Klasyfikacja statystyczna tekstu

Jestem programistą bez tła statystycznego i obecnie szukam różnych metod klasyfikacji dla dużej liczby różnych dokumentów, które chcę zaklasyfikować do wstępnie zdefiniowanych kategorii. Czytałem o kNN, SVM i NN. Mam jednak problemy z rozpoczęciem pracy. Jakie zasoby polecasz? Znam rachunek jednej...

classification information-retrieval text-mining

32

Zmienna ważność z SVM

Jak uzyskać znaczenie zmiennej (atrybutu) za pomocą SVM?

machine-learning feature-selection svm

32

Jakie kryteria zatrzymania dla aglomeracyjnego hierarchicznego grupowania są stosowane w praktyce?

Znalazłem obszerną literaturę proponującą wszelkiego rodzaju kryteria (np. Glenn i in. 1985 (pdf) i Jung i in. 2002 (pdf)). Jednak większość z nich nie jest tak łatwa do wdrożenia (przynajmniej z mojej perspektywy). Korzystam z scipy.cluster.hierarchy, aby uzyskać hierarchię klastrów, a teraz...

clustering

32

Modelowanie danych podłużnych, w których wpływ czasu zmienia się w formie funkcjonalnej między poszczególnymi osobami

Kontekst : Wyobraź sobie, że miałeś badanie podłużne, w którym mierzono zmienną zależną (DV) raz w tygodniu przez 20 tygodni na 200 uczestnikach. Chociaż ogólnie interesuje mnie, typowe DV, o których myślę, obejmują wyniki pracy po zatrudnieniu lub różne środki dobrostanu po interwencji...

repeated-measures random-effects-model latent-class

32

Rozkłady inne niż normalne, w których średnia i wariancja są niezależne

Zastanawiałem się, czy są jakieś rozkłady poza normą, w których średnia i wariancja są od siebie niezależne (lub innymi słowy, gdzie wariancja nie jest funkcją

distributions

32

ANOVA dotycząca danych dwumianowych

Analizuję eksperymentalny zestaw danych. Dane składają się ze sparowanego wektora rodzaju leczenia i wyniku dwumianowego: Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... W kolumnie wyników 1 oznacza sukces, a 0 oznacza niepowodzenie. Chciałbym dowiedzieć się, czy leczenie znacząco zmienia wynik....

logistic anova binomial experiment-design

32

Jaka jest najtrudniejsza koncepcja statystyczna do zrozumienia?

To pytanie jest podobne do pytania tutaj , ale myślę, że na tyle różne, że warto je zadać. Pomyślałem, że postawię na początek, co moim zdaniem jest najtrudniejsze do zrozumienia. Mój jest różnicą między prawdopodobieństwem a częstotliwością . Jeden jest na poziomie „wiedzy o rzeczywistości”...

teaching

32

Jak dopasować model wielopoziomowy do nadmiernie rozproszonych efektów Poissona?

Chcę dopasować wielopoziomowy GLMM z rozkładem Poissona (z nadmierną dyspersją) za pomocą R. W tej chwili używam lme4, ale zauważyłem, że ostatnio quasipoissonrodzina została usunięta. Widziałem gdzie indziej, że można modelować nadmierną dyspersję addytywną dla rozkładów dwumianowych, dodając...

r mixed-model poisson-distribution lme4-nlme overdispersion