Pytania oznaczone «large-data»

12
Testowanie hipotez za pomocą Big Data

Jak przeprowadzasz testy hipotez z użyciem dużych zbiorów danych? Napisałem następujący skrypt MATLAB, aby podkreślić moje zamieszanie. Wystarczy wygenerować dwie losowe serie i przeprowadzić prostą regresję liniową jednej zmiennej na drugiej. Wykonuje tę regresję kilka razy, używając różnych...

12
Dobroć dopasowania dla bardzo dużych próbek

Codziennie zbieram bardzo duże próbki (> 1 000 000) danych kategorycznych i chcę, aby dane wyglądały „znacząco” różnie między poszczególnymi dniami w celu wykrycia błędów w gromadzeniu danych. Myślałem, że użycie testu dobrego dopasowania (w szczególności testu G) byłoby dobrym dopasowaniem...

12
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace =...