Jestem zdezorientowany między dwoma terminami „funkcja generująca prawdopodobieństwo” i „funkcja generująca moment”. Czym różnią się te
Jestem zdezorientowany między dwoma terminami „funkcja generująca prawdopodobieństwo” i „funkcja generująca moment”. Czym różnią się te
Twierdzenie Halmosa-Savage'a mówi, że dla dominującego modelu statystycznego statystyka jest wystarczający, jeśli (i tylko jeśli) dla wszystkich istnieje wersja pochodnej Radon Nikodym, mierzalna wersja gdzie jest uprzywilejowany środek taki, że do i .(Ω,A,P)(Ω,A,P)(\Omega, \mathscr A, \mathscr...
Mam problem ze zrozumieniem pełnej wystarczającej statystyki? Niech będzie wystarczającą statystyką.T=ΣxiT=ΣxiT=\Sigma x_i Jeśli z prawdopodobieństwem 1, dla niektórych funkcji g , jest to kompletna wystarczająca statystyka.E[g(T)]=0E[g(T)]=0E[g(T)]=0ggg Ale co to znaczy? Widziałem przykłady...
Dlaczego wartości p i statystyki testu ks zmniejszają się wraz ze wzrostem wielkości próby? Weź ten kod Python jako przykład: import numpy as np from scipy.stats import norm, ks_2samp np.random.seed(0) for n in [10, 100, 1000, 10000, 100000, 1000000]: x = norm(0, 4).rvs(n) y = norm(0,...
W „ Konwolucyjnych sieciach głębokiego przekonania dla skalowalnego, bez nadzoru uczenia się reprezentacji hierarchicznych ” Lee i in. al. ( PDF ) Proponowane są konwergentne DBN. Oceniana jest również metoda klasyfikacji obrazów. Brzmi to logicznie, ponieważ istnieją naturalne lokalne funkcje...
Obecnie uczęszczam na kurs An Introduction to Operations Management na Coursera.org. W pewnym momencie profesor zaczął zajmować się zmiennością czasu operacji. Miarą, którą stosuje, jest współczynnik zmienności , stosunek między odchyleniem standardowym a średnią: cv=σμcv=σμc_v =...
Dla takich statystycznych statystów jak ja bardzo trudno jest uchwycić ideę VImetryki (zmienności informacji) nawet po przeczytaniu odpowiedniego artykułu Marina Melii „ Porównywanie klastrów - odległość oparta na informacjach ” (Journal of Multivariate Analysis, 2007). W rzeczywistości nie znam...
Idea Recurrent Neural Network (RNN) jest dla mnie jasna. Rozumiem to w następujący sposób: Mamy sekwencję obserwacji ( ) (lub innymi słowy, wielowymiarowe szeregi czasowe). Każda pojedyncza obserwacja jest wymiarową wektor numeryczne. W modelu RNN zakładamy, że następna obserwacja jest funkcją...
mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2)...
W podręczniku, który czytam, używają one pozytywnej definitywności (półdodatniej definitywności) do porównania dwóch macierzy kowariancji. Pomysł jest, że jeśli jest Pd następnie jest mniejsza niż . Ale walczę o intuicję tego związku?A - BA−BA-BbBBZAAA Istnieje podobny wątek...
W zestawie problemów udowodniłem ten „lemat”, którego wynik nie jest dla mnie intuicyjny. ZZZ jest standardowym rozkładem normalnym w modelu ocenzurowanym. Formalnie, Z∗∼Norm(0,σ2)Z∗∼Norm(0,σ2)Z^* \sim Norm(0, \sigma^2) , a Z=max(Z∗,c)Z=max(Z∗,c)Z = max(Z^*, c) . Następnie...
Czy ktoś może przedstawić proste (świeckie) wyjaśnienie związku między rozkładami Pareto a centralnym twierdzeniem granicznym (np. Czy ma zastosowanie? Dlaczego / dlaczego nie?)? Próbuję zrozumieć następujące oświadczenie: „Twierdzenie o granicy centralnej nie działa z każdym rozkładem. Wynika...
W kilku konkurencjach kaggle punktacja opierała się na „loglossie”. Dotyczy to błędu klasyfikacji. Oto odpowiedź techniczna, ale szukam intuicyjnej odpowiedzi. Naprawdę podobały mi się odpowiedzi na to pytanie dotyczące odległości Mahalanobisa, ale PCA to nie logloss. Mogę wykorzystać wartość,...
Próbowałem zaimplementować oszacowanie liczbowe dywergencji Kullbacka-Leiblera dla dwóch próbek. Aby debugować implementację, narysuj próbki z dwóch rozkładów normalnych N(0,1)N(0,1)\mathcal N (0,1) i N(1,2)N(1,2)\mathcal N (1,2) . Dla prostego oszacowania wygenerowałem dwa histogramy i próbowałem...
Rozumiem mechanikę obliczania wag z wykorzystaniem wyników skłonności : w i , j = t r e ap ( xja)p(xja)p(x_i) a następnie zastosowanie wag w analizie regresji, a wagi służą do „kontrolowania” lub rozdzielania efektów zmiennych towarzyszących w populacjach grupy leczonej i kontrolnej ze zmienną...
Standardowy błąd proporcji będzie największy, jaki może być dla danego N, gdy proporcja wynosi 0,5, a zmniejsza się wraz ze wzrostem proporcji od 0,5. Rozumiem, dlaczego tak jest, gdy patrzę na równanie błędu standardowego proporcji, ale nie mogę tego dalej wyjaśniać. Czy istnieje wyjaśnienie poza...
Zamkniętą formę w regresji liniowej można zapisać jako w^=(XTX)−1XTyw^=(XTX)−1XTy\hat{w}=(X^TX)^{-1}X^Ty Jak intuicyjnie wyjaśnić rolę w tym
Wiem z poprzednich badań, że Var(A+B)=Var(A)+Var(B)+2Cov(A,B)Var(A+B)=Var(A)+Var(B)+2Cov(A,B)Var(A+B) = Var(A) + Var(B) + 2 Cov (A,B) Nie rozumiem jednak, dlaczego tak jest. Widzę, że efektem będzie „podniesienie” wariancji, gdy kowboja A i B bardzo wysoko. Sensowne jest, że gdy tworzysz kompozyt...
Mimo kilku prób przeczytania o ładowaniu, zawsze uderzam w ścianę z cegieł. Zastanawiam się, czy ktoś może podać dość nietechniczną definicję ładowania początkowego? Wiem, że to nie jest możliwe na tym forum, aby zapewnić wystarczająco szczegółowo, aby umożliwić mi w pełni zrozumieć, ale delikatne...
Mam problem z rozróżnieniem pojęć skrzeczności i stacjonarności. Jak rozumiem, heteroscedastyczność różni się zmiennością w subpopulacjach, a niestacjonarność jest zmieniającą się średnią / wariancją w czasie. Jeśli jest to prawidłowe (choć uproszczone) zrozumienie, czy niestacjonarność jest po...