Jestem asystentem naukowym w laboratorium (wolontariusz). Ja i mała grupa zlecono mi analizę danych dla zestawu danych pobranych z dużego badania. Niestety dane zostały zebrane za pomocą jakiejś aplikacji online i nie została zaprogramowana do wyświetlania danych w najbardziej użytecznej formie.
Poniższe zdjęcia ilustrują podstawowy problem. Powiedziano mi, że nazywa się to „Przekształcaniem” lub „Restrukturyzacją”.
Pytanie: Jaki jest najlepszy proces przejścia od obrazu 1 do obrazu 2 z dużym zestawem danych z ponad 10 000 wpisów?
r
excel
data-cleaning
Wilkoe
źródło
źródło
data.table
,dplyr
,plyr
, ireshape2
- Zalecam unikanie Excel i tabele przestawne, jeśli to możliwe.Odpowiedzi:
Jak zauważyłem w moim komentarzu , pytanie nie zawiera wystarczających szczegółów, aby można było sformułować prawdziwą odpowiedź. Ponieważ potrzebujesz pomocy w znalezieniu właściwych warunków i sformułowaniu pytania, mogę krótko mówić w ogólności.
Termin, którego szukasz, to czyszczenie danych . Jest to proces pobierania surowych, źle sformatowanych (brudnych) danych i dostosowywania ich do analiz. Zmiana i normalizacja formatów („dwa” ) oraz reorganizacja wierszy i kolumn to typowe zadania czyszczenia danych.→2
W pewnym sensie czyszczenie danych można wykonać w dowolnym oprogramowaniu i można to zrobić za pomocą Excela lub R.Możliwe będą wady i zalety obu opcji:
R: R będzie wymagał stromej krzywej uczenia się. Jeśli nie znasz się dobrze na R lub programowaniu, rzeczy, które można zrobić dość szybko i łatwo w Excelu, będą frustrujące, gdy spróbujesz w R. Z drugiej strony, jeśli kiedykolwiek będziesz musiał to zrobić ponownie, nauka będzie musiała dobrze spędzony czas. Ponadto możliwość pisania i zapisywania kodu do czyszczenia danych w języku R złagodzi wymienione wyżej wady. Poniżej znajdują się linki, które pomogą Ci rozpocząć pracę z tymi zadaniami w języku R:
Możesz uzyskać wiele dobrych informacji na temat przepełnienia stosu :
Quick-R jest również cennym zasobem:
Wprowadzanie liczb w tryb numeryczny:
Innym nieocenionym źródłem informacji na temat języka R jest witryna pomocy UCLA :
Wreszcie, zawsze możesz znaleźć wiele informacji w starym dobrym Google:
Aktualizacja: Jest to częsty problem dotyczący struktury zbioru danych, gdy masz wiele pomiarów na „jednostkę badawczą” (w twoim przypadku - osobę). Jeśli masz jeden wiersz dla każdej osoby, mówi się, że twoje dane są w formie „szerokiej”, ale wtedy koniecznie będziesz mieć na przykład wiele kolumn dla zmiennej odpowiedzi. Z drugiej strony możesz mieć tylko jedną kolumnę dla zmiennej odpowiedzi (ale w rezultacie mieć wiele wierszy na osobę), w którym to przypadku mówi się, że twoje dane są w „długiej” formie. Przechodzenie między tymi dwoma formatami jest często nazywane „przekształcaniem” danych, szczególnie w świecie R.
reshape()
.reshape
ciężko z tym pracować. Hadley Wickham opracował pakiet o nazwie reshape2 , który ma uprościć proces. Osobista strona Hadley za reshape2 jest tutaj , opis Quick-R jest tu , i tam jest miłym wyglądzie poradnik tutaj .źródło
Spróbuj wykonać przy użyciu R:
źródło
W scali nazywa się to operacją „eksploduj” i można ją wykonać na ramce danych. Jeśli dane są typu rdd, najpierw przekonwertuj na dataFrame za pomocą
toDF
polecenia, a następnie użyj.explode
metody.źródło