Statystyki i duże zbiory danych

33
Czy regresja z regularyzacją L1 jest taka sama jak Lasso, a z regularyzacją L2 jest taka sama jak regresja kalenicy? A jak napisać „Lasso”?

Jestem inżynierem oprogramowania uczącym się uczenia maszynowego, szczególnie poprzez kursy uczenia maszynowego Andrew Ng . Badając regresję liniową z regularyzacją , znalazłem terminy, które są mylące: Regresja z regularyzacją L1 lub regularyzacją L2 LASSO Regresja kalenicy Więc moje...

33
Czy można usunąć wartości odstające z danych?

Szukałem sposobu na usunięcie wartości odstających z zestawu danych i znalazłem to pytanie . Jednak w niektórych komentarzach i odpowiedziach na to pytanie ludzie wspomnieli, że usunięcie wartości odstających z danych jest złą praktyką. W moim zestawie danych mam kilka wartości odstających,...

33
Czy istnieje jakiś problem z nadzorowanym uczeniem się, który (głębokie) sieci neuronowe nie mogłyby oczywiście przewyższyć innych metod?

Widziałem, że ludzie wkładali wiele wysiłku w SVM i jądra i wyglądają całkiem interesująco jako starter w uczeniu maszynowym. Ale jeśli spodziewamy się, że prawie zawsze moglibyśmy znaleźć lepsze rozwiązanie pod względem (głębokiej) sieci neuronowej, jakie jest znaczenie wypróbowania innych metod w...

33
Różnice matematyczne między GBM, XGBoost, LightGBM, CatBoost?

Istnieje kilka implementacji rodziny modeli GBDT, takich jak: GBM XGBoost LightGBM Catboost. Jakie są matematyczne różnice między tymi różnymi implementacjami? Catboost wydaje się przewyższać inne implementacje, nawet używając tylko domyślnych parametrów zgodnie z tym testem , ale wciąż jest...

32
Klasyfikacja statystyczna tekstu

Jestem programistą bez tła statystycznego i obecnie szukam różnych metod klasyfikacji dla dużej liczby różnych dokumentów, które chcę zaklasyfikować do wstępnie zdefiniowanych kategorii. Czytałem o kNN, SVM i NN. Mam jednak problemy z rozpoczęciem pracy. Jakie zasoby polecasz? Znam rachunek jednej...

32
ANOVA dotycząca danych dwumianowych

Analizuję eksperymentalny zestaw danych. Dane składają się ze sparowanego wektora rodzaju leczenia i wyniku dwumianowego: Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... W kolumnie wyników 1 oznacza sukces, a 0 oznacza niepowodzenie. Chciałbym dowiedzieć się, czy leczenie znacząco zmienia wynik....

32
Jaka jest najtrudniejsza koncepcja statystyczna do zrozumienia?

To pytanie jest podobne do pytania tutaj , ale myślę, że na tyle różne, że warto je zadać. Pomyślałem, że postawię na początek, co moim zdaniem jest najtrudniejsze do zrozumienia. Mój jest różnicą między prawdopodobieństwem a częstotliwością . Jeden jest na poziomie „wiedzy o rzeczywistości”...