Statystyki i duże zbiory danych

10
Brakujące wartości w zmiennej odpowiedzi w JAGS

Gelman i Hill (2006) mówią: W Bugs brakujące wyniki w regresji można łatwo rozwiązać, po prostu włączając wektor danych, NA i wszystkie. Błędy jawnie modelują zmienną wynikową, dlatego użycie tego modelu jest banalne, aby w efekcie przypisywać brakujące wartości przy każdej iteracji. Brzmi to...

10
Wyjaśnienie symulacji statystycznej

Nie jestem statystykiem. Więc proszę, znoście moje błędy, jeśli w ogóle. Czy mógłbyś wyjaśnić w prosty sposób, w jaki sposób przeprowadzana jest symulacja? Wiem, że pobiera losową próbkę z normalnego rozkładu i używa do symulacji. Ale nie rozumiem

10
Jak znaleźć korelacje między awariami a środowiskami systemowymi?

W wolnym czasie pracuję nad małym systemem internetowym, który gromadzi raporty o awariach (ale nie inne, niezawierające raportów o błędach) wysyłane z aplikacji Delphi Windows. Przy rozwiązywaniu problemów użytkownicy chcieliby mieć funkcję eksploracji danych, aby znaleźć związki między wersjami...

10
Przedział ufności dla chi-kwadrat

Próbuję znaleźć rozwiązanie, aby porównać dwa testy „dobroci dopasowania chi-kwadrat”. Dokładniej, chcę porównać wyniki z dwóch niezależnych eksperymentów. W tych eksperymentach autorzy wykorzystali chi-kwadrat dobroci dopasowania, aby porównać losowe zgadywanie (częstotliwości oczekiwane) z...

10
Pomoc w modelowaniu SEM (OpenMx, polycor)

Mam wiele problemów z jednym zestawem danych, do którego próbuję zastosować SEM. Przypuszczamy istnienie 5 ukrytych czynników A, B, C, D, E ze wskaźnikami odpowiednio. A1 do A5 (czynniki uporządkowane), B1 do B3 (ilościowo), C1, D1, E1 (wszystkie trzy ostatnie czynniki uporządkowane, z tylko 2...

10
Poza jądrem Fishera

Przez pewien czas wydawało się, że jądra Fishera mogą stać się popularne, ponieważ wydają się być sposobem na konstruowanie jąder z modeli probabilistycznych. Rzadko jednak widywałem je w praktyce i mam dobry autorytet, że nie działają zbyt dobrze. Opierają się na obliczeniach Fisher Information -...

10
Automatyczne czyszczenie danych

Częstym problemem jest brak dobrej jakości danych ML: błędy w wartościach funkcji, błędne klasyfikacje instancji itp. Jednym ze sposobów rozwiązania tego problemu jest ręczne przejrzenie danych i sprawdzenie, ale czy istnieją inne techniki? (Założę się, że są!) Które są lepsze i...