Statystyki i duże zbiory danych

10

W R jaki jest najlepszy sterownik grafiki do używania wykresów w Microsoft Word?

Używam R, aby tworzyć czyste wykresy, których używam w dokumentach Microsoft Office. Według tej strony najlepszą jakość uzyskuje się ze sterownikiem PDF. Niestety, Word nie obsługuje importowania danych PDF. Czego powinienem

r data-visualization

10

Pierwsze szybkie spojrzenie na zestaw danych

Proszę wybaczyć moją ignorancję, ale ... Ciągle znajduję się w sytuacji, w której mam do czynienia z szeregiem nowych danych, które udało mi się znaleźć. Te dane zwykle wyglądają mniej więcej tak: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126...

data-visualization correlation data-mining eda

10

Czy istnieje sposób wykorzystania krzyżowej weryfikacji do dokonania wyboru zmiennej / cechy w R?

Mam zestaw danych z około 70 zmiennymi, które chciałbym wyciąć. Chcę użyć CV, aby znaleźć najbardziej przydatne zmienne w następujący sposób. 1) Losowo wybierz powiedz 20 zmiennych. 2) Użyj stepwise/ LASSO/ lars/ etc, aby wybrać najważniejsze zmienne. 3) Powtórz ~ 50x i zobacz, które zmienne...

r cross-validation feature-selection random-forest stepwise-regression

10

Brakujące wartości w zmiennej odpowiedzi w JAGS

Gelman i Hill (2006) mówią: W Bugs brakujące wyniki w regresji można łatwo rozwiązać, po prostu włączając wektor danych, NA i wszystkie. Błędy jawnie modelują zmienną wynikową, dlatego użycie tego modelu jest banalne, aby w efekcie przypisywać brakujące wartości przy każdej iteracji. Brzmi to...

missing-data bugs jags

10

Wyjaśnienie symulacji statystycznej

Nie jestem statystykiem. Więc proszę, znoście moje błędy, jeśli w ogóle. Czy mógłbyś wyjaśnić w prosty sposób, w jaki sposób przeprowadzana jest symulacja? Wiem, że pobiera losową próbkę z normalnego rozkładu i używa do symulacji. Ale nie rozumiem

simulation

10

Jak znaleźć korelacje między awariami a środowiskami systemowymi?

W wolnym czasie pracuję nad małym systemem internetowym, który gromadzi raporty o awariach (ale nie inne, niezawierające raportów o błędach) wysyłane z aplikacji Delphi Windows. Przy rozwiązywaniu problemów użytkownicy chcieliby mieć funkcję eksploracji danych, aby znaleźć związki między wersjami...

data-mining

10

Powtarzane miary modelowania równań strukturalnych

Muszę przeanalizować zbiór danych dotyczących rehabilitacji klinicznej. Interesują mnie oparte na hipotezie związki między skwantyfikowanym „wkładem” (ilością terapii) a zmianami stanu zdrowia. Chociaż zbiór danych jest stosunkowo niewielki (n ~ 70), powtórzyliśmy dane odzwierciedlające zmiany...

r repeated-measures panel-data sem

10

Przedział ufności dla chi-kwadrat

Próbuję znaleźć rozwiązanie, aby porównać dwa testy „dobroci dopasowania chi-kwadrat”. Dokładniej, chcę porównać wyniki z dwóch niezależnych eksperymentów. W tych eksperymentach autorzy wykorzystali chi-kwadrat dobroci dopasowania, aby porównać losowe zgadywanie (częstotliwości oczekiwane) z...

r confidence-interval chi-squared

10

Dlaczego istnieje wartość R ^ 2 (i co ją determinuje), gdy lm nie ma wariancji w przewidywanej wartości?

Rozważ następujący kod R: example <- function(n) { X <- 1:n Y <- rep(1,n) return(lm(Y~X)) } #(2.13.0, i386-pc-mingw32) summary(example(7)) #R^2 = .1963 summary(example(62)) #R^2 = .4529 summary(example(4540)) #R^2 = .7832 summary(example(104))) #R^2 = 0 #I did a search for n 6:10000,...

r regression

10

Oczekiwana liczba rzutów monetą, aby uzyskać N z rzędu, biorąc pod uwagę M z rzędu

Interviewstreet miał swój drugi CodeSprint w styczniu, który zawierał poniższe pytanie. Odpowiedź programowa jest opublikowana, ale nie zawiera wyjaśnienia statystycznego. (Możesz zobaczyć oryginalny problem i opublikowane rozwiązanie, logując się na stronie Interviewstreet przy użyciu danych...

probability stochastic-processes markov-process

10

Pomoc w modelowaniu SEM (OpenMx, polycor)

Mam wiele problemów z jednym zestawem danych, do którego próbuję zastosować SEM. Przypuszczamy istnienie 5 ukrytych czynników A, B, C, D, E ze wskaźnikami odpowiednio. A1 do A5 (czynniki uporządkowane), B1 do B3 (ilościowo), C1, D1, E1 (wszystkie trzy ostatnie czynniki uporządkowane, z tylko 2...

r modeling multiple-regression sem

10

Skrzyżowane efekty losowe i niezrównoważone dane

Modeluję niektóre dane, w których, jak sądzę, mam dwa skrzyżowane losowe efekty. Ale zestaw danych nie jest zrównoważony i nie jestem pewien, co należy zrobić, aby to uwzględnić. Moje dane to zestaw zdarzeń. Zdarzenie ma miejsce, gdy klient spotyka się z dostawcą w celu wykonania zadania, które...

r mixed-model random-effects-model logistic

10

Jak przeprowadzić regresję procesu Gaussa, gdy aproksymowana funkcja zmienia się w czasie?

Jakie są dobre strategie przeprowadzania regresji procesu Gaussa, gdy funkcja, którą próbuję aproksymować, zmienia się w czasie? Naiwne podejście, jakie przychodzi mi do głowy, polega na wykorzystaniu tylko N najnowszych punktów danych do przeprowadzenia regresji. Jakie są lepsze...

regression online gaussian-process

10

Radzenie sobie z bardzo dużymi zestawami danych szeregów czasowych

Mam dostęp do bardzo dużego zestawu danych. Dane pochodzą z nagrań MEG osób słuchających fragmentów muzycznych z jednego z czterech gatunków. Dane są następujące: 6 tematów 3 eksperymentalne powtórzenia (epoki) 120 prób na epokę 8 sekund danych na próbę przy 500 Hz (= 4000 próbek) z 275 kanałów...

machine-learning feature-selection large-data feature-construction

10

Poza jądrem Fishera

Przez pewien czas wydawało się, że jądra Fishera mogą stać się popularne, ponieważ wydają się być sposobem na konstruowanie jąder z modeli probabilistycznych. Rzadko jednak widywałem je w praktyce i mam dobry autorytet, że nie działają zbyt dobrze. Opierają się na obliczeniach Fisher Information -...

machine-learning probability kernel-trick generative-models

10

Podejścia przy uczeniu się z ogromnych zestawów danych?

Zasadniczo istnieją dwa typowe sposoby uczenia się przeciwko ogromnym zestawom danych (gdy napotykasz ograniczenia czasowe / przestrzenne): Oszukiwanie :) - użyj tylko „zarządzalnego” podzbioru do treningu. Utrata dokładności może być nieistotna z uwagi na prawo malejących zwrotów - predykcyjne...

machine-learning large-data model-evaluation train

10

Automatyczne czyszczenie danych

Częstym problemem jest brak dobrej jakości danych ML: błędy w wartościach funkcji, błędne klasyfikacje instancji itp. Jednym ze sposobów rozwiązania tego problemu jest ręczne przejrzenie danych i sprawdzenie, ale czy istnieją inne techniki? (Założę się, że są!) Które są lepsze i...

data-cleaning

10

Czy MFCC są optymalną metodą reprezentowania muzyki w systemie pobierania?

Technika przetwarzania sygnału, Mel Cepstrum , jest często używana do wydobywania informacji z utworu muzycznego w celu wykorzystania go w zadaniu uczenia maszynowego. Ta metoda daje krótkoterminowe spektrum mocy, a współczynniki są wykorzystywane jako dane wejściowe. Przy projektowaniu systemów...

machine-learning classification signal-processing mfcc

10

Jak stworzyć system rekomendujący, który integruje funkcje filtrowania grupowego i funkcje treści?

Tworzę system polecający i chcę uwzględnić zarówno oceny „podobnych” użytkowników, jak i cechy produktów. Dane wyjściowe to przewidywana ocena [0-1]. Rozważam sieć neuronową (na początek). Tak więc dane wejściowe są kombinacją cech elementów i ocen każdego użytkownika. Dla elementu A i użytkownika...

recommender-system

10

Jak prognozować na podstawie zagregowanych danych w nieregularnych odstępach czasu?

Staram się prognozować sprzedaż produktów w automatach. Problem polega na tym, że maszyna jest napełniana w nieregularnych odstępach czasu i przy każdym napełnieniu możemy rejestrować tylko zagregowaną sprzedaż od ostatniego napełnienia maszyny (tj. Nie mamy danych o codziennej sprzedaży)....

time-series forecasting