Jak upuścić kolumny według nazwy w ramce danych

304

Mam duży zestaw danych i chciałbym przeczytać określone kolumny lub usunąć wszystkie pozostałe.

data <- read.dta("file.dta")

Wybieram kolumny, które mnie nie interesują:

var.out <- names(data)[!names(data) %in% c("iden", "name", "x_serv", "m_serv")]

i wtedy chciałbym zrobić coś takiego:

for(i in 1:length(var.out)) {
   paste("data$", var.out[i], sep="") <- NULL
}

aby usunąć wszystkie niechciane kolumny. Czy to optymalne rozwiązanie?

Leroux
źródło
1
śpiąc nad problemem, myślałem, że to subset(data, select=c(...))pomaga w moim przypadku na odrzucenie vars. pytanie dotyczyło głównie paste("data$",var.out[i],sep="")części umożliwiającej dostęp do interesujących kolumn wewnątrz pętli. jak mogę wkleić lub jakoś skomponować nazwę kolumny? Dziękujemy wszystkim za uwagę i pomoc
leroux,
7
Możliwy duplikat kolumn Drop w ramce danych R
jangorecki

Odpowiedzi:

380

Powinieneś użyć indeksowania lub subsetfunkcji. Na przykład :

R> df <- data.frame(x=1:5, y=2:6, z=3:7, u=4:8)
R> df
  x y z u
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
5 5 6 7 8

Następnie możesz użyć whichfunkcji i -operatora do indeksacji kolumn:

R> df[ , -which(names(df) %in% c("z","u"))]
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

Lub, znacznie prościej, użyj selectargumentu subsetfunkcji: możesz następnie użyć -operatora bezpośrednio na wektorze nazw kolumn, a nawet pominąć cudzysłowy wokół nazw!

R> subset(df, select=-c(z,u))
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

Pamiętaj, że możesz także wybrać kolumny, które chcesz, zamiast upuszczać inne:

R> df[ , c("x","y")]
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

R> subset(df, select=c(x,y))
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6
juba
źródło
2
selectargument subsetfunkcji spełnił swoje zadanie doskonale! Dziękuję juba!
leroux,
2
whichnie jest konieczne, patrz odpowiedź Isti. Ale podzbiór z -jest fajny! Nie wiedziałem tego!
TMS,
5
subsetwygląda dobrze, ale sposób, w jaki cicho upuszcza brakujące wartości, wydaje mi się dość niebezpieczny.
static_rtti
2
subsetjest rzeczywiście bardzo wygodny, ale pamiętaj, aby unikać używania go, chyba że używasz R. interaktywnie. Aby uzyskać więcej informacji, zobacz Ostrzeżenie w dokumentacji funkcji i to pytanie SO .
Waldir Leoncio,
4
„możesz nawet pominąć cudzysłowy wokół nazw!”, w rzeczywistości musisz pominąć cudzysłowy, w przeciwnym razie otrzymasz niepoprawny argument dla jednego operatora. Jeśli masz w nazwie pewne znaki (na przykład „-”), nie możesz w ogóle użyć tej metody, ponieważ usunięcie cudzysłowów spowoduje, że R nie będzie w stanie poprawnie przeanalizować kodu.
oh54
122

Nie używaj -which()do tego, jest to bardzo niebezpieczne. Rozważać:

dat <- data.frame(x=1:5, y=2:6, z=3:7, u=4:8)
dat[ , -which(names(dat) %in% c("z","u"))] ## works as expected
dat[ , -which(names(dat) %in% c("foo","bar"))] ## deletes all columns! Probably not what you wanted...

Zamiast tego użyj podzestawu lub !funkcji:

dat[ , !names(dat) %in% c("z","u")] ## works as expected
dat[ , !names(dat) %in% c("foo","bar")] ## returns the un-altered data.frame. Probably what you want

Nauczyłem się tego z bolesnego doświadczenia. Nie nadużywaj which()!

Ista
źródło
31
setdiffjest również przydatny:setdiff(names(dat), c("foo", "bar"))
hadley
setdiffPropozycja @hadley jest bardzo dobra dla długich list nazwisk.
JASC
48

Po pierwsze , możesz użyć bezpośredniego indeksowania (z wektorami logicznymi) zamiast ponownego dostępu do nazw kolumn, jeśli pracujesz z tą samą ramką danych; będzie to bezpieczniejsze, jak wskazała Ista, i szybsze pisanie i wykonywanie. Potrzebujesz więc tylko:

var.out.bool <- !names(data) %in% c("iden", "name", "x_serv", "m_serv")

a następnie po prostu ponownie przypisz dane:

data <- data[,var.out.bool] # or...
data <- data[,var.out.bool, drop = FALSE] # You will need this option to avoid the conversion to an atomic vector if there is only one column left

Po drugie , szybciej pisać, możesz bezpośrednio przypisać NULL do kolumn, które chcesz usunąć:

data[c("iden", "name", "x_serv", "m_serv")] <- list(NULL) # You need list() to respect the target structure.

Na koniec możesz użyć subset (), ale tak naprawdę nie można go użyć w kodzie (nawet plik pomocy ostrzega o tym). W szczególności problem polega na tym, że jeśli chcesz bezpośrednio użyć funkcji upuszczania susbset (), musisz napisać bez cudzysłowu wyrażenie odpowiadające nazwom kolumn:

subset( data, select = -c("iden", "name", "x_serv", "m_serv") ) # WILL NOT WORK
subset( data, select = -c(iden, name, x_serv, m_serv) ) # WILL

Jako bonus , oto mały test porównawczy różnych opcji, który wyraźnie pokazuje, że podzbiór jest wolniejszy, a pierwsza metoda zmiany przypisania jest szybsza:

                                        re_assign(dtest, drop_vec)  46.719  52.5655  54.6460  59.0400  1347.331
                                      null_assign(dtest, drop_vec)  74.593  83.0585  86.2025  94.0035  1476.150
               subset(dtest, select = !names(dtest) %in% drop_vec) 106.280 115.4810 120.3435 131.4665 65133.780
 subset(dtest, select = names(dtest)[!names(dtest) %in% drop_vec]) 108.611 119.4830 124.0865 135.4270  1599.577
                                  subset(dtest, select = -c(x, y)) 102.026 111.2680 115.7035 126.2320  1484.174

Wykres Microbench

Kod jest poniżej:

dtest <- data.frame(x=1:5, y=2:6, z = 3:7)
drop_vec <- c("x", "y")

null_assign <- function(df, names) {
  df[names] <- list(NULL)
  df
}

re_assign <- function(df, drop) {
  df <- df [, ! names(df) %in% drop, drop = FALSE]
  df
}

res <- microbenchmark(
  re_assign(dtest,drop_vec),
  null_assign(dtest,drop_vec),
  subset(dtest, select = ! names(dtest) %in% drop_vec),
  subset(dtest, select = names(dtest)[! names(dtest) %in% drop_vec]),
  subset(dtest, select = -c(x, y) ),
times=5000)

plt <- ggplot2::qplot(y=time, data=res[res$time < 1000000,], colour=expr)
plt <- plt + ggplot2::scale_y_log10() + 
  ggplot2::labs(colour = "expression") + 
  ggplot2::scale_color_discrete(labels = c("re_assign", "null_assign", "subset_bool", "subset_names", "subset_drop")) +
  ggplot2::theme_bw(base_size=16)
print(plt)
Antoine Lizée
źródło
2
Podoba mi się twoja druga alternatywa NULL, ale dlaczego, kiedy podajesz więcej niż dwa nazwiska, konieczne jest przypisanie jej list(NULL)? Jestem ciekawy, jak to działa, ponieważ próbowałem tylko z jednym imieniem i nie potrzebujęlist()
Darwin PC,
3
@DarwinPC Tak. Jeśli uzyskasz bezpośredni dostęp do jednego elementu wektora (za pomocą $lub [[), użycie <- list(NULL)spowoduje w rzeczywistości nieprawidłowe wyniki. Jeśli uzyskujesz dostęp do podzbioru ramki danych z jedną lub wieloma kolumnami, <- list(NULL)jest to dobra droga, nawet jeśli nie jest to potrzebne dla ramki danych z jedną kolumną (ponieważ df['myColumns']w razie potrzeby zostanie rzutowany na wektor).
Antoine Lizée,
27

Możesz także wypróbować dplyrpakiet:

R> df <- data.frame(x=1:5, y=2:6, z=3:7, u=4:8)
R> df
  x y z u
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
5 5 6 7 8
R> library(dplyr)
R> dplyr::select(df2, -c(x, y))  # remove columns x and y
  z u
1 3 4
2 4 5
3 5 6
4 6 7
5 7 8
Megatron
źródło
4
Korzystanie dplyr::select(df2, -one_of(c('x','y')))nadal będzie działać (z ostrzeżeniem), nawet jeśli niektóre z nazwanych kolumn nie istnieją
divibisan
13

Oto szybkie rozwiązanie tego problemu. Powiedzmy, że masz ramkę danych X z trzema kolumnami A, B i C:

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6))
> X
  A B C
1 1 3 5
2 2 4 6

Jeśli chcę usunąć kolumnę, powiedzmy B, po prostu użyj grep na nazwach kolumn, aby uzyskać indeks kolumny, którego możesz następnie użyć, aby pominąć kolumnę.

> X<-X[,-grep("B",colnames(X))]

Twoja nowa ramka danych X wyglądałaby następująco (tym razem bez kolumny B):

> X
  A C
1 1 5
2 2 6

Piękno grep polega na tym, że można określić wiele kolumn pasujących do wyrażenia regularnego. Gdybym miał X z pięcioma kolumnami (A, B, C, D, E):

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,8),E=c(9,10))
> X
  A B C D  E
1 1 3 5 7  9
2 2 4 6 8 10

Wyjmij kolumny B i D:

> X<-X[,-grep("B|D",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10

EDYCJA: Biorąc pod uwagę sugestię grepl Matthew Lundberg w komentarzach poniżej:

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,8),E=c(9,10))
> X
  A B C D  E
1 1 3 5 7  9
2 2 4 6 8 10
> X<-X[,!grepl("B|D",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10

Jeśli spróbuję usunąć kolumnę, która nie istnieje, nic się nie powinno stać:

> X<-X[,!grepl("G",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10
Joben R. Ilagan
źródło
3
X[,-grep("B",colnames(X))]nie zwróci żadnych kolumn w przypadku, gdy nie zawiera nazwy kolumny B, zamiast zwracać wszystkie kolumny zgodnie z oczekiwaniami. Rozważ X <- irisna przykład. Jest to problem z użyciem ujemnych wskaźników z obliczonymi wartościami. Zastanów się greplzamiast tego.
Matthew Lundberg,
6

Próbowałem usunąć kolumnę podczas korzystania z pakietu data.table i otrzymałem nieoczekiwany wynik. Myślę, że warto opublikować poniższe. Tylko mała uwaga ostrzegawcza.

[Edytowane przez Matthew ...]

DF = read.table(text = "
     fruit state grade y1980 y1990 y2000
     apples Ohio   aa    500   100   55
     apples Ohio   bb      0     0   44
     apples Ohio   cc    700     0   33
     apples Ohio   dd    300    50   66
", sep = "", header = TRUE, stringsAsFactors = FALSE)

DF[ , !names(DF) %in% c("grade")]   # all columns other than 'grade'
   fruit state y1980 y1990 y2000
1 apples  Ohio   500   100    55
2 apples  Ohio     0     0    44
3 apples  Ohio   700     0    33
4 apples  Ohio   300    50    66

library('data.table')
DT = as.data.table(DF)

DT[ , !names(dat4) %in% c("grade")]    # not expected !! not the same as DF !!
[1]  TRUE  TRUE FALSE  TRUE  TRUE  TRUE

DT[ , !names(DT) %in% c("grade"), with=FALSE]    # that's better
    fruit state y1980 y1990 y2000
1: apples  Ohio   500   100    55
2: apples  Ohio     0     0    44
3: apples  Ohio   700     0    33
4: apples  Ohio   300    50    66

Zasadniczo składnia parametru data.tableNIE jest dokładnie taka sama jak data.frame. W rzeczywistości istnieje wiele różnic, patrz FAQ 1.1 i FAQ 2.17. Zostałeś ostrzeżony!

Mark Miller
źródło
1
Lub możesz użyć DT[,var.out := NULL]do usunięcia kolumn, które chcesz to zrobić.
mnel
Metoda podzbioru (x, select = ...) działa zarówno dla klas, jak data.framei dla data.tableklas
momeara
3

Zmieniłem kod na:

# read data
dat<-read.dta("file.dta")

# vars to delete
var.in<-c("iden", "name", "x_serv", "m_serv")

# what I'm keeping
var.out<-setdiff(names(dat),var.in)

# keep only the ones I want       
dat <- dat[var.out]

W każdym razie odpowiedź juby jest najlepszym rozwiązaniem mojego problemu!

Leroux
źródło
Dlaczego chcesz to zrobić w pętli? Odpowiedzi Odpowiedź juba pokazuje, jak to zrobić w jednym kroku. Po co to komplikować?
Ista,
oczywiście używam selectargumentu subsetfunkcji w moim kodzie. Chciałem tylko zobaczyć, jak mogę uzyskać dostęp do dowolnych kolumn w pętli, na wypadek, gdyby chciałem zrobić coś innego niż tylko upuszczenie kolumny. oryginalny zestaw danych zawiera około 1200 zmiennych i jestem zainteresowany tylko użyciem 4 z nich, nie wiedząc, gdzie dokładnie są.
leroux,
2

Oto inne rozwiązanie, które może być pomocne dla innych. Poniższy kod wybiera niewielką liczbę wierszy i kolumn z dużego zestawu danych. Kolumny są wybierane jak w jednej z odpowiedzi Juba, z wyjątkiem tego, że używam funkcji wklejania, aby wybrać zestaw kolumn o nazwach numerowanych kolejno:

df = read.table(text = "

state county city  region  mmatrix  X1 X2 X3    A1     A2     A3      B1     B2     B3      C1      C2      C3

  1      1     1      1     111010   1  0  0     2     20    200       4      8     12      NA      NA      NA
  1      2     1      1     111010   1  0  0     4     NA    400       5      9     NA      NA      NA      NA
  1      1     2      1     111010   1  0  0     6     60     NA      NA     10     14      NA      NA      NA
  1      2     2      1     111010   1  0  0    NA     80    800       7     11     15      NA      NA      NA

  1      1     3      2     111010   0  1  0     1      2      1       2      2      2      10      20      30
  1      2     3      2     111010   0  1  0     2     NA      1       2      2     NA      40      50      NA
  1      1     4      2     111010   0  1  0     1      1     NA      NA      2      2      70      80      90
  1      2     4      2     111010   0  1  0    NA      2      1       2      2     10     100     110     120

  1      1     1      3     010010   0  0  1    10     20     10     200    200    200       1       2       3
  1      2     1      3     001000   0  0  1    20     NA     10     200    200    200       4       5       9
  1      1     2      3     101000   0  0  1    10     10     NA     200    200    200       7       8      NA
  1      2     2      3     011010   0  0  1    NA     20     10     200    200    200      10      11      12

", sep = "", header = TRUE, stringsAsFactors = FALSE)
df

df2 <- df[df$region == 2, names(df) %in% c(paste("C", seq_along(1:3), sep=''))]
df2

#    C1  C2  C3
# 5  10  20  30
# 6  40  50  NA
# 7  70  80  90
# 8 100 110 120
Mark Miller
źródło
2
df2 <- df[!names(df) %in% c("c1", "c2")]
Marvin W.
źródło
-1

Nie mogę odpowiedzieć na twoje pytanie w komentarzach z powodu niskiej oceny reputacji.

Następny kod da ci błąd, ponieważ funkcja wklejania zwraca ciąg znaków

for(i in 1:length(var.out)) {
   paste("data$", var.out[i], sep="") <- NULL
}

Oto możliwe rozwiązanie:

for(i in 1:length(var.out)) {

  text_to_source <- paste0 ("data$", var.out[i], "<- NULL") # Write a line of your
                                                  # code like a character string
  eval (parse (text=text_to_source)) # Source a text that contains a code
}

lub po prostu zrób:

for(i in 1:length(var.out)) {
  data[var.out[i]] <- NULL
}
Andriy T.
źródło
-1
df = mtcars 
usuń vs i jestem, ponieważ są one kategoryczne. W zbiorze danych vs jest w kolumnie numer 8, am jest w kolumnie numer 9

dfnum = df[,-c(8,9)]

Abhilash Ponnam
źródło