Nie rozumiem, dlaczego zmienna losowa „ujemny dwumianowy” ma taką nazwę. Co jest w tym negatywnego? Co jest w tym dwumianowe? Co to jest w tym przypadku dwumian
Nie rozumiem, dlaczego zmienna losowa „ujemny dwumianowy” ma taką nazwę. Co jest w tym negatywnego? Co jest w tym dwumianowe? Co to jest w tym przypadku dwumian
Rozważmy standardowy model regresji wielokrotnej gdzie , więc normalność, homoscedastyczność i nieskorelacja błędów pozostają w mocy.Y= Xβ+ εY=Xβ+εY=X\beta+\varepsilonε ∼ N( 0 , σ2)jan)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) Załóżmy, że wykonujemy regresję grzbietu, dodając tę...
Mam duży zestaw wektorów cech, których użyję do zaatakowania problemu z klasyfikacją binarną (za pomocą scikit learn w Pythonie). Zanim zacznę myśleć o imputacji, jestem zainteresowany próbą ustalenia na podstawie pozostałych części danych, czy brakujące dane są „losowo brakujące”, czy nie...
Dla uproszczenia załóżmy, że pracuję nad klasycznym przykładem wiadomości e-mail ze spamem / bez spamu. Mam zestaw 20000 e-maili. Wiem, że 2000 to spam, ale nie mam żadnego przykładu wiadomości nie będących spamem. Chciałbym przewidzieć, czy pozostałe 18000 to spam, czy nie. Idealnie, wynik,...
Mam problem ze zrozumieniem, czym jest proces ładowania bayesowskiego i czym różni się on od normalnego ładowania początkowego. A gdyby ktoś mógł zaoferować intuicyjny / konceptualny przegląd i porównanie obu, byłoby świetnie. Weźmy przykład. Powiedzmy, że mamy zestaw danych X, który jest...
Dane mają wiele funkcji (np. 100), a liczba wystąpień wynosi około 100 000. Dane są rzadkie. Chcę dopasować dane za pomocą regresji logistycznej lub svm. Skąd mam wiedzieć, czy cechy są liniowe czy nieliniowe, aby móc użyć sztuczki jądra, jeśli jest
Oto moje stare pytanie Chciałbym zapytać, czy ktoś zna różnicę (jeśli istnieje jakakolwiek różnica) między modelami Hidden Markov (HMM) a Particle Filter (PF), aw konsekwencji Filtrem Kalmana, lub w jakich okolicznościach korzystamy z którego algorytmu. Jestem studentem i muszę zrobić projekt, ale...
Jak działa metoda inwersji? Powiedzmy, że mam losową próbkę o gęstości powyżej a zatem z cdf na . Następnie metodą inwersji otrzymuję rozkład jako . f ( x ; θ ) = 1X1, X2), . . . , XnX1,X2),...,XnX_1,X_2,...,X_n 0<x<1FX(x)=x1/θ(0,1)XF - 1 X(u)=uθfa( x ; θ ) = 1θx( 1 - θ...
Niedawno pracowałem nad uczeniem się algorytmów wzmacniających, takich jak adaboost, zwiększanie gradientu i wiedziałem, że najczęściej używanym słabym uczniem są drzewa. Naprawdę chcę wiedzieć, czy istnieją pewne udane przykłady (mam na myśli kilka artykułów lub artykułów) wykorzystania sieci...
Mam dwie funkcje gęstości prawdopodobieństwa rozkładów normalnych: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2}
Czytałem raport o zwycięskim rozwiązaniu konkursu Kaggle ( klasyfikacja złośliwego oprogramowania ). Raport można znaleźć w tym poście na forum . Problemem był problem z klasyfikacją (dziewięć klas, metryką była strata logarytmiczna) ze 10000 elementami w zestawie pociągów, 10000 elementów w...
Preambuła To jest długi post. Jeśli ponownie to czytasz, pamiętaj, że poprawiłem część pytania, chociaż materiał tła pozostaje taki sam. Dodatkowo uważam, że opracowałem rozwiązanie problemu. To rozwiązanie pojawia się na dole wpisu. Dzięki CliffAB za wskazanie, że moje oryginalne rozwiązanie...
EDYCJA: Ponieważ to pytanie zostało zawyżone, podsumowanie: znalezienie różnych znaczących i możliwych do interpretacji zestawów danych z tymi samymi mieszanymi statystykami (średnia, mediana, średnica i związane z nimi dyspersje oraz regresja). Kwartet Anscombe (patrz Cel wizualizacji danych...
Czym jest „logistyka” w dystrybucji logistyki, w zdrowym rozsądku? Jaka jest etymologia i leksykalne uzasadnienie nazwy, a nie tylko czystej definicji
W statystyce klasycznej istnieje definicja, że statystyka zbioru danych jest zdefiniowana jako kompletna dla parametru nie jest możliwe sformułowanie z niej obiektywnego estymatora sposób nietrwały. Oznacza to, że jedynym sposobem na uzyskanie dla wszystkich jest prawie na pewno równe...
Ze Stanem i pakietów frontend rstanarmczy brmsmogę łatwo analizować dane droga Bayesa jak ja zanim z mieszanych modeli takich jak lme. Chociaż na biurku mam większość książek i artykułów Kruschke-Gelman-Wagenmakers itp., Nie mówią mi one, jak podsumować wyniki dla medycznej publiczności, rozdartej...
Architekturę wąskiego gardła definiujemy jako typ znaleziony w dokumencie ResNet, w którym [dwie warstwy konwekcyjne 3x3] są zastępowane przez [jedna konwekcja 1x1, jedna konwekcja 3x3 i kolejna warstwa konwekcyjna 1x1]. Rozumiem, że warstwy konwekcji 1x1 są używane jako forma redukcji wymiarów (i...
Na przykład, w RThe MASS::mvrnorm()Funkcja ta jest przydatna do generowania danych, aby wykazać różne rzeczy w statystykach. Bierze obowiązkowy Sigmaargument, który jest macierzą symetryczną określającą macierz kowariancji zmiennych. Jak utworzyć symetryczną macierz z dowolnymi...
Dlaczego ludzie używają technik programowania kwadratowego (takich jak SMO) podczas obsługi SVM z jądrem? Co jest nie tak z Gradient Descent? Czy nie jest możliwe używanie go z jądrem, czy jest to po prostu zbyt wolne (i dlaczego?). Oto nieco więcej kontekstu: starając się lepiej zrozumieć SVM,...
Rozumiem, że nawet przy przestrzeganiu odpowiednich procedur walidacji krzyżowej i wyboru modelu, nadmierne dopasowanie nastąpi, jeśli ktoś będzie szukał wystarczająco modelu , chyba że nałoży ograniczenia na złożoność modelu, okres. Co więcej, często ludzie próbują nauczyć się kar za złożoność...