Statystyki i duże zbiory danych

10
Uzasadnienie zastosowania AUC?

Zwłaszcza w informatycznej literaturze dotyczącej uczenia maszynowego AUC (obszar pod krzywą charakterystyczną operatora odbiornika) jest popularnym kryterium oceny klasyfikatorów. Jakie są uzasadnienia korzystania z AUC? Np. Czy istnieje konkretna funkcja straty, dla której optymalną decyzją jest...

10
Jaka jest różnica między ITT a ATE?

Mam problem ze zrozumieniem różnych estymatorów, które można wykorzystać w ocenie skutków. Wiem, że estymator zamiaru leczenia (ITT) porównuje różnice między uprawnionymi osobami bez programu, a uprawnionymi osobami z programem, niezależnie od zgodności. Myślałem jednak, że średni efekt leczenia...

10
Jak oszacować parametry dla filtra Kalmana

W poprzednim pytaniu zapytałem o dopasowanie rozkładów do niektórych niegaussowskich danych empirycznych. Zasugerowano mi offline, że mogę spróbować założyć, że dane są gaussowskie i najpierw dopasować filtr Kalmana. Następnie, w zależności od błędów, zdecyduj, czy warto opracować coś bardziej...

10
Technika śledzenia losowego

W M. Seeger poznałem następującą losową technikę śledzenia: „Niski poziom aktualizacji rozkładu Choleskiego”, University of California w Berkeley, Tech. Rep, 2007. tr( A ) = E[ xT.A x ]tr⁡(A)=E[xTAx]\operatorname{tr}(\mathbf{A}) = {E[\mathbf{x}^T \mathbf{A} \mathbf{x}]} gdzie .x ∼N( 0 , I...

10
Dobra książka o teoretycznym podejściu do statystyki

Kiedy 10 lat temu uczestniczyłem w kursach statystyki teoretycznej jako student, korzystaliśmy ze współczesnych statystyk matematycznych Dudewicza i Mishry. Odnoszę się teraz do książki i przypominam sobie, że niektóre przykłady kodu są w asemblerze dla IBM 370. Choć dziwne, nie mogę powstrzymać...

10
Dlaczego demografowie podają stawki za 100 000 osób?

Wydaje się uniwersalne, że statystyki demograficzne są podawane w przeliczeniu na 100 000 ludności rocznie. Na przykład wskaźnik samobójstw, wskaźnik zabójstw, rok życia skorygowany o niepełnosprawność, lista jest długa. Dlaczego? Gdybyśmy mówili o chemii, części na milion (ppm) są powszechne....

10
Porównanie zbiorów szeregów czasowych

Mam trzy zestawy danych szeregów czasowych, które chcę porównać. Zostały one pobrane na 3 osobne okresy około 12 dni. Są to średnie, maksymalne i minimalne liczby głów zebrane w bibliotece uniwersyteckiej podczas tygodni finałowych. Musiałem podać średnie, maksymalne i minimalne, ponieważ godzinowe...

10
Wykrywanie wartości odstających online

Chcę przetwarzać automatycznie segmentowane obrazy mikroskopowe w celu wykrycia wadliwych obrazów i / lub wadliwych segmentacji w ramach wysokowydajnego potoku obrazowania. Istnieje wiele parametrów, które można obliczyć dla każdego surowego obrazu i segmentacji, i które stają się „ekstremalne”,...

10
Warunki zbieżności estymatora M z prawdziwą średnią

Biorąc pod uwagę próbki IID z rozkładem Gaussa i estymator M, μ m = argmin a ∑ ρ ( | X i - a | ) , jakie właściwości na ρ są wystarczające do zagwarantowania prawdopodobieństwa μ m → μ ? Czy ρ jest ściśle wypukłe i ściśle rośnie?X1,...,Xn∼N(μ,σ)X1,...,Xn∼N(μ,σ)X_1,...,X_n \sim N(\mu,\sigma)...