Określ niestandardowy format daty dla argumentu colClasses w read.table / read.csv

101

Pytanie:

Czy istnieje sposób określenia formatu daty podczas używania argumentu colClasses w read.table / read.csv?

(Zdaję sobie sprawę, że mogę konwertować po zaimportowaniu, ale przy wielu kolumnach z datami takimi jak ta łatwiej byłoby to zrobić na etapie importu)


Przykład:

Mam plik .csv z kolumnami daty w formacie %d/%m/%Y.

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))

To źle powoduje konwersję. Na przykład 15/07/2008staje się 0015-07-20.


Powtarzalny kod:

data <- 
structure(list(func_loc = structure(c(1L, 2L, 3L, 3L, 3L, 3L, 
3L, 4L, 4L, 5L), .Label = c("3076WAG0003", "3076WAG0004", "3076WAG0007", 
"3076WAG0009", "3076WAG0010"), class = "factor"), order_type = structure(c(3L, 
3L, 1L, 1L, 1L, 1L, 2L, 2L, 3L, 1L), .Label = c("PM01", "PM02", 
"PM03"), class = "factor"), actual_finish = structure(c(4L, 6L, 
1L, 2L, 3L, 7L, 1L, 8L, 1L, 5L), .Label = c("", "11/03/2008", 
"14/08/2008", "15/07/2008", "17/03/2008", "19/01/2009", "22/09/2008", 
"6/09/2007"), class = "factor")), .Names = c("func_loc", "order_type", 
"actual_finish"), row.names = c(NA, 10L), class = "data.frame")


write.csv(data,"data.csv", row.names = F)                                                        

dataImport <- read.csv("data.csv")
str(dataImport)
dataImport

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
dataImport

A oto jak wygląda wynik:

wyjście kodu

Tommy O'Dell
źródło
Hackerskim sposobem byłoby stworzenie własnej wersji programu read.tablei dodanie formatargumentu, który jest przekazywany do as.Date. Nie zdziwiłbym się jednak, gdyby istniał lepszy sposób, o którym nie myślę.
joran,

Odpowiedzi:

158

Możesz napisać własną funkcję, która akceptuje ciąg i konwertuje go na datę przy użyciu żądanego formatu, a następnie użyj, setAsaby ustawić ją jako asmetodę. Następnie możesz użyć swojej funkcji jako części colClasses.

Próbować:

setAs("character","myDate", function(from) as.Date(from, format="%d/%m/%Y") )

tmp <- c("1, 15/08/2008", "2, 23/05/2010")
con <- textConnection(tmp)

tmp2 <- read.csv(con, colClasses=c('numeric','myDate'), header=FALSE)
str(tmp2)

Następnie zmodyfikuj, jeśli to konieczne, aby pracować z danymi.

Edytować ---

Możesz setClass('myDate')najpierw uruchomić, aby uniknąć ostrzeżenia (możesz zignorować ostrzeżenie, ale może to być irytujące, jeśli będziesz to robić dużo, a jest to proste połączenie, które pozwala się go pozbyć).

Greg Snow
źródło
2
Wow - setAs to ratunek! Jak nigdy wcześniej nie widziałem tej funkcji?
user295691
4
Zauważ, że możesz otrzymać ostrzeżenie „brak definicji dla klasy„ mojaData ””, jak opisano szczegółowo w tym pytaniu .
Danny D'Amours,
1
Co setMethod('myDate')ma zrobić? Uruchamianie go powoduje po prostu błąd ...
Josh O'Brien,
1
@ JoshO'Brien, przepraszam, że powinno to zostać setClass(teraz naprawione). Zapobiega setAswysyłaniu ostrzeżenia o tym, że „myDate” nie istnieje jako klasa. Ostrzeżenie jest nieszkodliwe i wszystko nadal działa, ale ustawienie klasy oznacza, że ​​nawet nie zobaczysz ostrzeżenia.
Greg Snow
1
@MySchizoBuddy, Jeśli masz tylko jedną kolumnę z datą i robisz to tylko raz, prawdopodobnie nie ma znaczenia, w jaki sposób to zrobisz. Ale jeśli masz kilka kolumn w swoim zbiorze danych, które są datami, myślę, że to podejście byłoby prawdopodobnie prostsze niż zmiana każdej z kolumn po przeczytaniu.
Greg Snow
25

Jeśli chcesz zmienić tylko jeden format daty, możesz użyć Defaultspakietu, aby zmienić domyślny format w ramachas.Date.character

library(Defaults)
setDefaults('as.Date.character', format = '%d/%M/%Y')
dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
str(dataImport)
## 'data.frame':    10 obs. of  3 variables:
##  $ func_loc     : Factor w/ 5 levels "3076WAG0003",..: 1 2 3 3 3 3 3 4 4 5
##  $ order_type   : Factor w/ 3 levels "PM01","PM02",..: 3 3 1 1 1 1 2 2 3 1
##  $ actual_finish: Date, format: "2008-10-15" "2009-10-19" NA "2008-10-11" ...

Myślę, że odpowiedź @Greg Snow jest znacznie lepsza, ponieważ nie zmienia domyślnego zachowania często używanej funkcji.

mnel
źródło
7

Jeśli potrzebujesz czasu:

setClass('yyyymmdd-hhmmss')
setAs("character","yyyymmdd-hhmmss", function(from) as.POSIXct(from, format="%Y%m%d-%H%M%S"))
d <- read.table(colClasses="yyyymmdd-hhmmss", text="20150711-130153")
str(d)
## 'data.frame':    1 obs. of  1 variable:
## $ V1: POSIXct, format: "2015-07-11 13:01:53"
Mark Rajcok
źródło
2

W międzyczasie problem został rozwiązany dawno temu przez Hadley Wickham. Tak więc w dzisiejszych czasach rozwiązanie sprowadza się do onelinera:

library(readr)
data <- read_csv("data.csv", 
                  col_types = cols(actual_finish = col_datetime(format = "%d/%m/%Y")))

Może chcemy nawet pozbyć się niepotrzebnych rzeczy:

data <- as.data.frame(data)
Andri Signorell
źródło