Używam R, aby tworzyć czyste wykresy, których używam w dokumentach Microsoft Office. Według tej strony najlepszą jakość uzyskuje się ze sterownikiem PDF. Niestety, Word nie obsługuje importowania danych PDF. Czego powinienem
Używam R, aby tworzyć czyste wykresy, których używam w dokumentach Microsoft Office. Według tej strony najlepszą jakość uzyskuje się ze sterownikiem PDF. Niestety, Word nie obsługuje importowania danych PDF. Czego powinienem
Proszę wybaczyć moją ignorancję, ale ... Ciągle znajduję się w sytuacji, w której mam do czynienia z szeregiem nowych danych, które udało mi się znaleźć. Te dane zwykle wyglądają mniej więcej tak: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126...
Mam zestaw danych z około 70 zmiennymi, które chciałbym wyciąć. Chcę użyć CV, aby znaleźć najbardziej przydatne zmienne w następujący sposób. 1) Losowo wybierz powiedz 20 zmiennych. 2) Użyj stepwise/ LASSO/ lars/ etc, aby wybrać najważniejsze zmienne. 3) Powtórz ~ 50x i zobacz, które zmienne...
Gelman i Hill (2006) mówią: W Bugs brakujące wyniki w regresji można łatwo rozwiązać, po prostu włączając wektor danych, NA i wszystkie. Błędy jawnie modelują zmienną wynikową, dlatego użycie tego modelu jest banalne, aby w efekcie przypisywać brakujące wartości przy każdej iteracji. Brzmi to...
Nie jestem statystykiem. Więc proszę, znoście moje błędy, jeśli w ogóle. Czy mógłbyś wyjaśnić w prosty sposób, w jaki sposób przeprowadzana jest symulacja? Wiem, że pobiera losową próbkę z normalnego rozkładu i używa do symulacji. Ale nie rozumiem
W wolnym czasie pracuję nad małym systemem internetowym, który gromadzi raporty o awariach (ale nie inne, niezawierające raportów o błędach) wysyłane z aplikacji Delphi Windows. Przy rozwiązywaniu problemów użytkownicy chcieliby mieć funkcję eksploracji danych, aby znaleźć związki między wersjami...
Muszę przeanalizować zbiór danych dotyczących rehabilitacji klinicznej. Interesują mnie oparte na hipotezie związki między skwantyfikowanym „wkładem” (ilością terapii) a zmianami stanu zdrowia. Chociaż zbiór danych jest stosunkowo niewielki (n ~ 70), powtórzyliśmy dane odzwierciedlające zmiany...
Próbuję znaleźć rozwiązanie, aby porównać dwa testy „dobroci dopasowania chi-kwadrat”. Dokładniej, chcę porównać wyniki z dwóch niezależnych eksperymentów. W tych eksperymentach autorzy wykorzystali chi-kwadrat dobroci dopasowania, aby porównać losowe zgadywanie (częstotliwości oczekiwane) z...
Rozważ następujący kod R: example <- function(n) { X <- 1:n Y <- rep(1,n) return(lm(Y~X)) } #(2.13.0, i386-pc-mingw32) summary(example(7)) #R^2 = .1963 summary(example(62)) #R^2 = .4529 summary(example(4540)) #R^2 = .7832 summary(example(104))) #R^2 = 0 #I did a search for n 6:10000,...
Interviewstreet miał swój drugi CodeSprint w styczniu, który zawierał poniższe pytanie. Odpowiedź programowa jest opublikowana, ale nie zawiera wyjaśnienia statystycznego. (Możesz zobaczyć oryginalny problem i opublikowane rozwiązanie, logując się na stronie Interviewstreet przy użyciu danych...
Mam wiele problemów z jednym zestawem danych, do którego próbuję zastosować SEM. Przypuszczamy istnienie 5 ukrytych czynników A, B, C, D, E ze wskaźnikami odpowiednio. A1 do A5 (czynniki uporządkowane), B1 do B3 (ilościowo), C1, D1, E1 (wszystkie trzy ostatnie czynniki uporządkowane, z tylko 2...
Modeluję niektóre dane, w których, jak sądzę, mam dwa skrzyżowane losowe efekty. Ale zestaw danych nie jest zrównoważony i nie jestem pewien, co należy zrobić, aby to uwzględnić. Moje dane to zestaw zdarzeń. Zdarzenie ma miejsce, gdy klient spotyka się z dostawcą w celu wykonania zadania, które...
Jakie są dobre strategie przeprowadzania regresji procesu Gaussa, gdy funkcja, którą próbuję aproksymować, zmienia się w czasie? Naiwne podejście, jakie przychodzi mi do głowy, polega na wykorzystaniu tylko N najnowszych punktów danych do przeprowadzenia regresji. Jakie są lepsze...
Mam dostęp do bardzo dużego zestawu danych. Dane pochodzą z nagrań MEG osób słuchających fragmentów muzycznych z jednego z czterech gatunków. Dane są następujące: 6 tematów 3 eksperymentalne powtórzenia (epoki) 120 prób na epokę 8 sekund danych na próbę przy 500 Hz (= 4000 próbek) z 275 kanałów...
Przez pewien czas wydawało się, że jądra Fishera mogą stać się popularne, ponieważ wydają się być sposobem na konstruowanie jąder z modeli probabilistycznych. Rzadko jednak widywałem je w praktyce i mam dobry autorytet, że nie działają zbyt dobrze. Opierają się na obliczeniach Fisher Information -...
Zasadniczo istnieją dwa typowe sposoby uczenia się przeciwko ogromnym zestawom danych (gdy napotykasz ograniczenia czasowe / przestrzenne): Oszukiwanie :) - użyj tylko „zarządzalnego” podzbioru do treningu. Utrata dokładności może być nieistotna z uwagi na prawo malejących zwrotów - predykcyjne...
Częstym problemem jest brak dobrej jakości danych ML: błędy w wartościach funkcji, błędne klasyfikacje instancji itp. Jednym ze sposobów rozwiązania tego problemu jest ręczne przejrzenie danych i sprawdzenie, ale czy istnieją inne techniki? (Założę się, że są!) Które są lepsze i...
Technika przetwarzania sygnału, Mel Cepstrum , jest często używana do wydobywania informacji z utworu muzycznego w celu wykorzystania go w zadaniu uczenia maszynowego. Ta metoda daje krótkoterminowe spektrum mocy, a współczynniki są wykorzystywane jako dane wejściowe. Przy projektowaniu systemów...
Tworzę system polecający i chcę uwzględnić zarówno oceny „podobnych” użytkowników, jak i cechy produktów. Dane wyjściowe to przewidywana ocena [0-1]. Rozważam sieć neuronową (na początek). Tak więc dane wejściowe są kombinacją cech elementów i ocen każdego użytkownika. Dla elementu A i użytkownika...
Staram się prognozować sprzedaż produktów w automatach. Problem polega na tym, że maszyna jest napełniana w nieregularnych odstępach czasu i przy każdym napełnieniu możemy rejestrować tylko zagregowaną sprzedaż od ostatniego napełnienia maszyny (tj. Nie mamy danych o codziennej sprzedaży)....