Wygeneruj zmienną zastępczą

Question 1

Mam problem z wygenerowaniem następujących zmiennych zastępczych w R:

Analizuję roczne dane szeregów czasowych (okres 1948-2009). Mam dwa pytania:

Jak wygenerować zmienną fikcyjną dla obserwacji nr 10, tj. Dla roku 1957 (wartość = 1 w 1957 i zero w innym przypadku)?
Jak wygenerować zmienną fikcyjną, która przed rokiem 1957 ma wartość zero i przyjmuje wartość 1 od 1957 r. Do 2009 r.?

Question 2

Inną opcją, która może działać lepiej, jeśli masz wiele zmiennych, jest factori model.matrix.

> year.f = factor(year)
> dummies = model.matrix(~year.f)

Będzie to obejmować kolumnę przecięcia z osią (wszystkie jedynki) i jedną kolumnę dla każdego roku w zbiorze danych, z wyjątkiem jednego, który będzie wartością „domyślną” lub wartością przecięcia.

Można zmienić sposób „default” jest wybierany przez ingerować contrasts.argw model.matrix.

Ponadto, jeśli chcesz pominąć punkt przecięcia z osią, możesz po prostu upuścić pierwszą kolumnę lub dodać +0na końcu formuły.

Mam nadzieję, że to jest przydatne.

Question 3

Najprostszym sposobem utworzenia tych fikcyjnych zmiennych jest coś takiego:

> print(year)
[1] 1956 1957 1957 1958 1958 1959
> dummy <- as.numeric(year == 1957)
> print(dummy)
[1] 0 1 1 0 0 0
> dummy2 <- as.numeric(year >= 1957)
> print(dummy2)
[1] 0 1 1 1 1 1

Mówiąc bardziej ogólnie, możesz ifelsewybrać jedną z dwóch wartości w zależności od warunku. Więc jeśli zamiast zmiennej zerowej 0-1, z jakiegoś powodu chciałbyś użyć, powiedzmy, 4 i 7, możesz użyć ifelse(year == 1957, 4, 7).

Question 4

Używanie manekinów :: dummy () :

library(dummies)

# example data
df1 <- data.frame(id = 1:4, year = 1991:1994)

df1 <- cbind(df1, dummy(df1$year, sep = "_"))

df1
#   id year df1_1991 df1_1992 df1_1993 df1_1994
# 1  1 1991        1        0        0        0
# 2  2 1992        0        1        0        0
# 3  3 1993        0        0        1        0
# 4  4 1994        0        0        0        1

Question 5

Pakiet mlrzawiera createDummyFeaturesw tym celu:

library(mlr)
df <- data.frame(var = sample(c("A", "B", "C"), 10, replace = TRUE))
df

#    var
# 1    B
# 2    A
# 3    C
# 4    B
# 5    C
# 6    A
# 7    C
# 8    A
# 9    B
# 10   C

createDummyFeatures(df, cols = "var")

#    var.A var.B var.C
# 1      0     1     0
# 2      1     0     0
# 3      0     0     1
# 4      0     1     0
# 5      0     0     1
# 6      1     0     0
# 7      0     0     1
# 8      1     0     0
# 9      0     1     0
# 10     0     0     1

createDummyFeatures usuwa oryginalną zmienną.

https://www.rdocumentation.org/packages/mlr/versions/2.9/topics/createDummyFeatures
.....

Question 6

Inne odpowiedzi tutaj oferują bezpośrednie ścieżki do wykonania tego zadania - takie, które wiele modeli (np. lm) I tak zrobi dla ciebie wewnętrznie. Niemniej jednak, oto sposoby, aby zmienne manekin z popularnych Maxa Kuhna careti recipespaczek. Chociaż są nieco bardziej szczegółowe, oba łatwo skalują się do bardziej skomplikowanych sytuacji i dobrze pasują do odpowiednich ram.

`caret::dummyVars`

Dzięki caret, odpowiednia funkcja dummyVars, która ma predictsposobu, aby zastosować go w ramce danych:

df <- data.frame(letter = rep(c('a', 'b', 'c'), each = 2),
                 y = 1:6)

library(caret)

dummy <- dummyVars(~ ., data = df, fullRank = TRUE)

dummy
#> Dummy Variable Object
#> 
#> Formula: ~.
#> 2 variables, 1 factors
#> Variables and levels will be separated by '.'
#> A full rank encoding is used

predict(dummy, df)
#>   letter.b letter.c y
#> 1        0        0 1
#> 2        0        0 2
#> 3        1        0 3
#> 4        1        0 4
#> 5        0        1 5
#> 6        0        1 6

`recipes::step_dummy`

Dzięki recipes, odpowiednia funkcja jest step_dummy:

library(recipes)

dummy_recipe <- recipe(y ~ letter, df) %>% 
    step_dummy(letter)

dummy_recipe
#> Data Recipe
#> 
#> Inputs:
#> 
#>       role #variables
#>    outcome          1
#>  predictor          1
#> 
#> Steps:
#> 
#> Dummy variables from letter

W zależności od kontekstu wyodrębnij dane za pomocą prepi albo bakealbo juice:

# Prep and bake on new data...
dummy_recipe %>% 
    prep() %>% 
    bake(df)
#> # A tibble: 6 x 3
#>       y letter_b letter_c
#>   <int>    <dbl>    <dbl>
#> 1     1        0        0
#> 2     2        0        0
#> 3     3        1        0
#> 4     4        1        0
#> 5     5        0        1
#> 6     6        0        1

# ...or use `retain = TRUE` and `juice` to extract training data
dummy_recipe %>% 
    prep(retain = TRUE) %>% 
    juice()
#> # A tibble: 6 x 3
#>       y letter_b letter_c
#>   <int>    <dbl>    <dbl>
#> 1     1        0        0
#> 2     2        0        0
#> 3     3        1        0
#> 4     4        1        0
#> 5     5        0        1
#> 6     6        0        1

Question 7

W przypadku zastosowania przedstawionym w pytaniu możesz również pomnożyć warunek logiczny przez 1(lub może nawet lepiej, przez 1L):

# example data
df1 <- data.frame(yr = 1951:1960)

# create the dummies
df1$is.1957 <- 1L * (df1$yr == 1957)
df1$after.1957 <- 1L * (df1$yr >= 1957)

co daje:

> df1
     yr is.1957 after.1957
1  1951       0          0
2  1952       0          0
3  1953       0          0
4  1954       0          0
5  1955       0          0
6  1956       0          0
7  1957       1          1
8  1958       0          1
9  1959       0          1
10 1960       0          1

W przypadku zastosowań przedstawionych na przykład w odpowiedziach @ zx8754 i @Sotos, jest jeszcze kilka innych opcji, które nie zostały jeszcze omówione w imo.

1) Stwórz własną make_dummiesfunkcję

# example data
df2 <- data.frame(id = 1:5, year = c(1991:1994,1992))

# create a function
make_dummies <- function(v, prefix = '') {
  s <- sort(unique(v))
  d <- outer(v, s, function(v, s) 1L * (v == s))
  colnames(d) <- paste0(prefix, s)
  d
}

# bind the dummies to the original dataframe
cbind(df2, make_dummies(df2$year, prefix = 'y'))

co daje:

  id year y1991 y1992 y1993 y1994
1  1 1991     1     0     0     0
2  2 1992     0     1     0     0
3  3 1993     0     0     1     0
4  4 1994     0     0     0     1
5  5 1992     0     1     0     0

2) użyj funkcji dcastz jednego z nichTabela danych lub reshape2

 dcast(df2, id + year ~ year, fun.aggregate = length)

co daje:

  id year 1991 1992 1993 1994
1  1 1991    1    0    0    0
2  2 1992    0    1    0    0
3  3 1993    0    0    1    0
4  4 1994    0    0    0    1
5  5 1992    0    1    0    0

Jednak to nie zadziała, jeśli w kolumnie znajdują się zduplikowane wartości, dla których trzeba utworzyć atrapy. W przypadku, gdy potrzebna jest konkretna funkcja agregująca dcasti wynik dcastkonieczności scalenia z powrotem do oryginału:

# example data
df3 <- data.frame(var = c("B", "C", "A", "B", "C"))

# aggregation function to get dummy values
f <- function(x) as.integer(length(x) > 0)

# reshape to wide with the cumstom aggregation function and merge back to the original
merge(df3, dcast(df3, var ~ var, fun.aggregate = f), by = 'var', all.x = TRUE)

co daje (zwróć uwagę, że wynik jest uporządkowany zgodnie z bykolumną):

  var A B C
1   A 1 0 0
2   B 0 1 0
3   B 0 1 0
4   C 0 0 1
5   C 0 0 1

3) użyj spread ztidyr(z mutateoddplyr)

library(dplyr)
library(tidyr)

df2 %>% 
  mutate(v = 1, yr = year) %>% 
  spread(yr, v, fill = 0)

co daje:

  id year 1991 1992 1993 1994
1  1 1991    1    0    0    0
2  2 1992    0    1    0    0
3  3 1993    0    0    1    0
4  4 1994    0    0    0    1
5  5 1992    0    1    0    0

Question 8

To, co zwykle robię podczas pracy z tego rodzaju zmiennymi fikcyjnymi, to:

(1) jak wygenerować zmienną fikcyjną dla obserwacji nr 10, czyli dla roku 1957 (wartość = 1 w 1957 i zero w innym przypadku)

data$factor_year_1 <- factor ( with ( data, ifelse ( ( year == 1957 ), 1 , 0 ) ) )

(2) jak wygenerować zmienną zastępczą, która przed rokiem 1957 ma wartość zero i przyjmuje wartość 1 od 1957 r. Do 2009 r.?

data$factor_year_2 <- factor ( with ( data, ifelse ( ( year < 1957 ), 0 , 1 ) ) )

Następnie mogę wprowadzić ten czynnik jako zmienną zastępczą w moich modelach. Na przykład, aby zobaczyć, czy istnieje długoterminowy trend w zmiennej y :

summary ( lm ( y ~ t,  data = data ) )

Mam nadzieję że to pomoże!

Question 9

Jeśli chcesz uzyskać zmienne zastępcze K, zamiast K-1, spróbuj:

dummies = table(1:length(year),as.factor(year))

Najlepsza,

Question 10

Przeczytałem to na forum kaggle:

#Generate example dataframe with character column
example <- as.data.frame(c("A", "A", "B", "F", "C", "G", "C", "D", "E", "F"))
names(example) <- "strcol"

#For every unique value in the string column, create a new 1/0 column
#This is what Factors do "under-the-hood" automatically when passed to function requiring numeric data
for(level in unique(example$strcol)){
  example[paste("dummy", level, sep = "_")] <- ifelse(example$strcol == level, 1, 0)
}

Question 11

Ta ifelsefunkcja jest najlepsza dla prostej logiki, takiej jak ta.

> x <- seq(1950, 1960, 1)

    ifelse(x == 1957, 1, 0)
    ifelse(x <= 1957, 1, 0)

>  [1] 0 0 0 0 0 0 0 1 0 0 0
>  [1] 1 1 1 1 1 1 1 1 0 0 0

Ponadto, jeśli chcesz, aby zwracał dane postaci, możesz to zrobić.

> x <- seq(1950, 1960, 1)

    ifelse(x == 1957, "foo", "bar")
    ifelse(x <= 1957, "foo", "bar")

>  [1] "bar" "bar" "bar" "bar" "bar" "bar" "bar" "foo" "bar" "bar" "bar"
>  [1] "foo" "foo" "foo" "foo" "foo" "foo" "foo" "foo" "bar" "bar" "bar"

Zmienne kategorialne z zagnieżdżeniem ...

> x <- seq(1950, 1960, 1)

    ifelse(x == 1957, "foo", ifelse(x == 1958, "bar","baz"))

>  [1] "baz" "baz" "baz" "baz" "baz" "baz" "baz" "foo" "bar" "baz" "baz"

To najprostsza opcja.

Question 12

Innym sposobem jest użycie mtabulatez qdapToolspakietu, tj

df <- data.frame(var = sample(c("A", "B", "C"), 5, replace = TRUE))
  var
#1   C
#2   A
#3   C
#4   B
#5   B

library(qdapTools)
mtabulate(df$var)

co daje,

Question 13

Przekonwertuj swoje dane na data.table i użyj zestawu przez odwołanie i filtrowanie wierszy

library(data.table)

dt <- as.data.table(your.dataframe.or.whatever)
dt[, is.1957 := 0]
dt[year == 1957, is.1957 := 1]

Przykład zabawki potwierdzającej koncepcję:

library(data.table)

dt <- as.data.table(cbind(c(1, 1, 1), c(2, 2, 3)))
dt[, is.3 := 0]
dt[V2 == 3, is.3 := 1]

Question 14

Ta jedna wkładka w bazie R.

model.matrix( ~ iris$Species - 1)

daje

    iris$Speciessetosa iris$Speciesversicolor iris$Speciesvirginica
1                    1                      0                     0
2                    1                      0                     0
3                    1                      0                     0
4                    1                      0                     0
5                    1                      0                     0
6                    1                      0                     0
7                    1                      0                     0
8                    1                      0                     0
9                    1                      0                     0
10                   1                      0                     0
11                   1                      0                     0
12                   1                      0                     0
13                   1                      0                     0
14                   1                      0                     0
15                   1                      0                     0
16                   1                      0                     0
17                   1                      0                     0
18                   1                      0                     0
19                   1                      0                     0
20                   1                      0                     0
21                   1                      0                     0
22                   1                      0                     0
23                   1                      0                     0
24                   1                      0                     0
25                   1                      0                     0
26                   1                      0                     0
27                   1                      0                     0
28                   1                      0                     0
29                   1                      0                     0
30                   1                      0                     0
31                   1                      0                     0
32                   1                      0                     0
33                   1                      0                     0
34                   1                      0                     0
35                   1                      0                     0
36                   1                      0                     0
37                   1                      0                     0
38                   1                      0                     0
39                   1                      0                     0
40                   1                      0                     0
41                   1                      0                     0
42                   1                      0                     0
43                   1                      0                     0
44                   1                      0                     0
45                   1                      0                     0
46                   1                      0                     0
47                   1                      0                     0
48                   1                      0                     0
49                   1                      0                     0
50                   1                      0                     0
51                   0                      1                     0
52                   0                      1                     0
53                   0                      1                     0
54                   0                      1                     0
55                   0                      1                     0
56                   0                      1                     0
57                   0                      1                     0
58                   0                      1                     0
59                   0                      1                     0
60                   0                      1                     0
61                   0                      1                     0
62                   0                      1                     0
63                   0                      1                     0
64                   0                      1                     0
65                   0                      1                     0
66                   0                      1                     0
67                   0                      1                     0
68                   0                      1                     0
69                   0                      1                     0
70                   0                      1                     0
71                   0                      1                     0
72                   0                      1                     0
73                   0                      1                     0
74                   0                      1                     0
75                   0                      1                     0
76                   0                      1                     0
77                   0                      1                     0
78                   0                      1                     0
79                   0                      1                     0
80                   0                      1                     0
81                   0                      1                     0
82                   0                      1                     0
83                   0                      1                     0
84                   0                      1                     0
85                   0                      1                     0
86                   0                      1                     0
87                   0                      1                     0
88                   0                      1                     0
89                   0                      1                     0
90                   0                      1                     0
91                   0                      1                     0
92                   0                      1                     0
93                   0                      1                     0
94                   0                      1                     0
95                   0                      1                     0
96                   0                      1                     0
97                   0                      1                     0
98                   0                      1                     0
99                   0                      1                     0
100                  0                      1                     0
101                  0                      0                     1
102                  0                      0                     1
103                  0                      0                     1
104                  0                      0                     1
105                  0                      0                     1
106                  0                      0                     1
107                  0                      0                     1
108                  0                      0                     1
109                  0                      0                     1
110                  0                      0                     1
111                  0                      0                     1
112                  0                      0                     1
113                  0                      0                     1
114                  0                      0                     1
115                  0                      0                     1
116                  0                      0                     1
117                  0                      0                     1
118                  0                      0                     1
119                  0                      0                     1
120                  0                      0                     1
121                  0                      0                     1
122                  0                      0                     1
123                  0                      0                     1
124                  0                      0                     1
125                  0                      0                     1
126                  0                      0                     1
127                  0                      0                     1
128                  0                      0                     1
129                  0                      0                     1
130                  0                      0                     1
131                  0                      0                     1
132                  0                      0                     1
133                  0                      0                     1
134                  0                      0                     1
135                  0                      0                     1
136                  0                      0                     1
137                  0                      0                     1
138                  0                      0                     1
139                  0                      0                     1
140                  0                      0                     1
141                  0                      0                     1
142                  0                      0                     1
143                  0                      0                     1
144                  0                      0                     1
145                  0                      0                     1
146                  0                      0                     1
147                  0                      0                     1
148                  0                      0                     1
149                  0                      0                     1
150                  0                      0                     1

Question 15

Używam takiej funkcji (dla data.table):

# Ta funkcja dla obiektu data.table i zmiennej var.name typu factor tworzy dummy variables o nazwach "var.name: (level1)"
factorToDummy <- function(dtable, var.name){
  stopifnot(is.data.table(dtable))
  stopifnot(var.name %in% names(dtable))
  stopifnot(is.factor(dtable[, get(var.name)]))

  dtable[, paste0(var.name,": ",levels(get(var.name)))] -> new.names
  dtable[, (new.names) := transpose(lapply(get(var.name), FUN = function(x){x == levels(get(var.name))})) ]

  cat(paste("\nDodano zmienne dummy: ", paste0(new.names, collapse = ", ")))
}

Stosowanie:

data <- data.table(data)
data[, x:= droplevels(x)]
factorToDummy(data, "x")

Question 16

Innym sposobem, w jaki możesz to zrobić, jest użycie

ifelse(year < 1965 , 1, 0)

Question 17

Cześć, napisałem tę ogólną funkcję, aby wygenerować zmienną fikcyjną, która zasadniczo replikuje funkcję zamiany w Stata.

Jeśli x jest ramką danych, to x i chcę fałszywą zmienną o nazwie, aktóra przyjmie wartość, 1gdy x$bprzyjmie wartośćc

introducedummy<-function(x,a,b,c){
   g<-c(a,b,c)
  n<-nrow(x)
  newcol<-g[1]
  p<-colnames(x)
  p2<-c(p,newcol)
  new1<-numeric(n)
  state<-x[,g[2]]
  interest<-g[3]
  for(i in 1:n){
    if(state[i]==interest){
      new1[i]=1
    }
    else{
      new1[i]=0
    }
  }
    x$added<-new1
    colnames(x)<-p2
    x
  }

Question 18

Możemy również użyć cSplit_efrom splitstackshape. Używając danych @ zx8754

df1 <- data.frame(id = 1:4, year = 1991:1994)
splitstackshape::cSplit_e(df1, "year", fill = 0)

#  id year year_1 year_2 year_3 year_4
#1  1 1991      1      0      0      0
#2  2 1992      0      1      0      0
#3  3 1993      0      0      1      0
#4  4 1994      0      0      0      1

Aby pracować dla danych innych niż numerycznej musimy określić typejako "character"jednoznacznie

df1 <- data.frame(id = 1:4, let = LETTERS[1:4])
splitstackshape::cSplit_e(df1, "let", fill = 0, type = "character")

#  id let let_A let_B let_C let_D
#1  1   A     1     0     0     0
#2  2   B     0     1     0     0
#3  3   C     0     0     1     0
#4  4   D     0     0     0     1

Answer 1

Mam problem z wygenerowaniem następujących zmiennych zastępczych w R:

Analizuję roczne dane szeregów czasowych (okres 1948-2009). Mam dwa pytania:

Jak wygenerować zmienną fikcyjną dla obserwacji nr 10, tj. Dla roku 1957 (wartość = 1 w 1957 i zero w innym przypadku)?
Jak wygenerować zmienną fikcyjną, która przed rokiem 1957 ma wartość zero i przyjmuje wartość 1 od 1957 r. Do 2009 r.?

Answer 2

113

Inną opcją, która może działać lepiej, jeśli masz wiele zmiennych, jest factori model.matrix.

> year.f = factor(year)
> dummies = model.matrix(~year.f)

Będzie to obejmować kolumnę przecięcia z osią (wszystkie jedynki) i jedną kolumnę dla każdego roku w zbiorze danych, z wyjątkiem jednego, który będzie wartością „domyślną” lub wartością przecięcia.

Można zmienić sposób „default” jest wybierany przez ingerować contrasts.argw model.matrix.

Ponadto, jeśli chcesz pominąć punkt przecięcia z osią, możesz po prostu upuścić pierwszą kolumnę lub dodać +0na końcu formuły.

Mam nadzieję, że to jest przydatne.

David J. Harris
źródło

4

co jeśli chcesz wygenerować zmienne fikcyjne dla wszystkich (zamiast k-1) bez przecięcia?

Fernando Hoces De La Guardia

1

zauważ, że model.matrix () akceptuje wiele zmiennych do przekształcenia w manekiny: model.matrix (~ var1 + var2, data = df) Ponownie upewnij się, że są to czynniki.

slizb

3

@Synergist table (1: n, factor). Gdzie czynnik jest oryginalną zmienną, a n jest jej długością

Fernando Hoces De La Guardia

1

@Synergist, ta tabela to macierz niepokoju ze wszystkimi zmiennymi wskaźnika k (zamiast k-1)

Fernando Hoces De La Guardia

6

@FernandoHocesDeLaGuardia Możesz usunąć punkt przecięcia z formułą za pomocą + 0 lub - 1. Więc model.matrix(~ year.f + 0)da nam zmienne zastępcze bez poziomu odniesienia.

Gregor Thomas,

Answer 3

4

co jeśli chcesz wygenerować zmienne fikcyjne dla wszystkich (zamiast k-1) bez przecięcia?

Fernando Hoces De La Guardia

Answer 4

1

zauważ, że model.matrix () akceptuje wiele zmiennych do przekształcenia w manekiny: model.matrix (~ var1 + var2, data = df) Ponownie upewnij się, że są to czynniki.

slizb

Answer 5

3

@Synergist table (1: n, factor). Gdzie czynnik jest oryginalną zmienną, a n jest jej długością

Fernando Hoces De La Guardia

Answer 6

1

@Synergist, ta tabela to macierz niepokoju ze wszystkimi zmiennymi wskaźnika k (zamiast k-1)

Fernando Hoces De La Guardia

Answer 7

6

@FernandoHocesDeLaGuardia Możesz usunąć punkt przecięcia z formułą za pomocą + 0 lub - 1. Więc model.matrix(~ year.f + 0)da nam zmienne zastępcze bez poziomu odniesienia.

Gregor Thomas,

Answer 8

Najprostszym sposobem utworzenia tych fikcyjnych zmiennych jest coś takiego:

> print(year)
[1] 1956 1957 1957 1958 1958 1959
> dummy <- as.numeric(year == 1957)
> print(dummy)
[1] 0 1 1 0 0 0
> dummy2 <- as.numeric(year >= 1957)
> print(dummy2)
[1] 0 1 1 1 1 1

Mówiąc bardziej ogólnie, możesz ifelsewybrać jedną z dwóch wartości w zależności od warunku. Więc jeśli zamiast zmiennej zerowej 0-1, z jakiegoś powodu chciałbyś użyć, powiedzmy, 4 i 7, możesz użyć ifelse(year == 1957, 4, 7).

Answer 9

49

Używanie manekinów :: dummy () :

library(dummies)

# example data
df1 <- data.frame(id = 1:4, year = 1991:1994)

df1 <- cbind(df1, dummy(df1$year, sep = "_"))

df1
#   id year df1_1991 df1_1992 df1_1993 df1_1994
# 1  1 1991        1        0        0        0
# 2  2 1992        0        1        0        0
# 3  3 1993        0        0        1        0
# 4  4 1994        0        0        0        1

zx8754
źródło

Może dodanie „fun = factor” do atrapy funkcji może pomóc, jeśli takie jest znaczenie zmiennej.

Filippo Mazza,

@FilippoMazza Wolę zachować je jako liczby całkowite, tak, w razie potrzeby możemy ustawić współczynnik.

zx8754

jak usunąć df1 przed każdą fikcyjną nazwą nagłówka kolumny?

mike

@mike colnames (df1) <- gsub ("df1_", "", fixed = TRUE, colnames (df1))

zx8754

Answer 10

Może dodanie „fun = factor” do atrapy funkcji może pomóc, jeśli takie jest znaczenie zmiennej.

Filippo Mazza,

Answer 11

@FilippoMazza Wolę zachować je jako liczby całkowite, tak, w razie potrzeby możemy ustawić współczynnik.

zx8754

Answer 12

jak usunąć df1 przed każdą fikcyjną nazwą nagłówka kolumny?

mike

Answer 13

@mike colnames (df1) <- gsub ("df1_", "", fixed = TRUE, colnames (df1))

zx8754

Answer 14

19

Pakiet mlrzawiera createDummyFeaturesw tym celu:

library(mlr)
df <- data.frame(var = sample(c("A", "B", "C"), 10, replace = TRUE))
df

#    var
# 1    B
# 2    A
# 3    C
# 4    B
# 5    C
# 6    A
# 7    C
# 8    A
# 9    B
# 10   C

createDummyFeatures(df, cols = "var")

#    var.A var.B var.C
# 1      0     1     0
# 2      1     0     0
# 3      0     0     1
# 4      0     1     0
# 5      0     0     1
# 6      1     0     0
# 7      0     0     1
# 8      1     0     0
# 9      0     1     0
# 10     0     0     1

createDummyFeatures usuwa oryginalną zmienną.

https://www.rdocumentation.org/packages/mlr/versions/2.9/topics/createDummyFeatures
.....

Enrique Pérez Herrero
źródło

1

Enrique, próbowałem zainstalować pakiet, ale wygląda na to, że nie działa po wykonaniu biblioteki (mlr). Pojawia się następujący błąd: «Błąd w loadNamespace (j <- i [[1L]], c (lib.loc, .libPaths ()), versionCheck = vI [[j]]): nie ma pakietu o nazwie 'ggvis 'Ponadto: komunikat ostrzegawczy: pakiet' mlr 'został zbudowany w wersji R 3.2.5 Błąd: ładowanie pakietu lub przestrzeni nazw dla' mlr 'nie powiodło się »

Stary człowiek w morzu.

1

najpierw musisz zainstalować „ggvis”

Ted Mosby

Answer 15

1

Enrique, próbowałem zainstalować pakiet, ale wygląda na to, że nie działa po wykonaniu biblioteki (mlr). Pojawia się następujący błąd: «Błąd w loadNamespace (j <- i [[1L]], c (lib.loc, .libPaths ()), versionCheck = vI [[j]]): nie ma pakietu o nazwie 'ggvis 'Ponadto: komunikat ostrzegawczy: pakiet' mlr 'został zbudowany w wersji R 3.2.5 Błąd: ładowanie pakietu lub przestrzeni nazw dla' mlr 'nie powiodło się »

Stary człowiek w morzu.

Answer 16

1

najpierw musisz zainstalować „ggvis”

Ted Mosby

Answer 17

Inne odpowiedzi tutaj oferują bezpośrednie ścieżki do wykonania tego zadania - takie, które wiele modeli (np. lm) I tak zrobi dla ciebie wewnętrznie. Niemniej jednak, oto sposoby, aby zmienne manekin z popularnych Maxa Kuhna careti recipespaczek. Chociaż są nieco bardziej szczegółowe, oba łatwo skalują się do bardziej skomplikowanych sytuacji i dobrze pasują do odpowiednich ram.

`caret::dummyVars`

Dzięki caret, odpowiednia funkcja dummyVars, która ma predictsposobu, aby zastosować go w ramce danych:

df <- data.frame(letter = rep(c('a', 'b', 'c'), each = 2),
                 y = 1:6)

library(caret)

dummy <- dummyVars(~ ., data = df, fullRank = TRUE)

dummy
#> Dummy Variable Object
#> 
#> Formula: ~.
#> 2 variables, 1 factors
#> Variables and levels will be separated by '.'
#> A full rank encoding is used

predict(dummy, df)
#>   letter.b letter.c y
#> 1        0        0 1
#> 2        0        0 2
#> 3        1        0 3
#> 4        1        0 4
#> 5        0        1 5
#> 6        0        1 6

`recipes::step_dummy`

Dzięki recipes, odpowiednia funkcja jest step_dummy:

library(recipes)

dummy_recipe <- recipe(y ~ letter, df) %>% 
    step_dummy(letter)

dummy_recipe
#> Data Recipe
#> 
#> Inputs:
#> 
#>       role #variables
#>    outcome          1
#>  predictor          1
#> 
#> Steps:
#> 
#> Dummy variables from letter

W zależności od kontekstu wyodrębnij dane za pomocą prepi albo bakealbo juice:

# Prep and bake on new data...
dummy_recipe %>% 
    prep() %>% 
    bake(df)
#> # A tibble: 6 x 3
#>       y letter_b letter_c
#>   <int>    <dbl>    <dbl>
#> 1     1        0        0
#> 2     2        0        0
#> 3     3        1        0
#> 4     4        1        0
#> 5     5        0        1
#> 6     6        0        1

# ...or use `retain = TRUE` and `juice` to extract training data
dummy_recipe %>% 
    prep(retain = TRUE) %>% 
    juice()
#> # A tibble: 6 x 3
#>       y letter_b letter_c
#>   <int>    <dbl>    <dbl>
#> 1     1        0        0
#> 2     2        0        0
#> 3     3        1        0
#> 4     4        1        0
#> 5     5        0        1
#> 6     6        0        1

Answer 18

W przypadku zastosowania przedstawionym w pytaniu możesz również pomnożyć warunek logiczny przez 1(lub może nawet lepiej, przez 1L):

# example data
df1 <- data.frame(yr = 1951:1960)

# create the dummies
df1$is.1957 <- 1L * (df1$yr == 1957)
df1$after.1957 <- 1L * (df1$yr >= 1957)

co daje:

> df1
     yr is.1957 after.1957
1  1951       0          0
2  1952       0          0
3  1953       0          0
4  1954       0          0
5  1955       0          0
6  1956       0          0
7  1957       1          1
8  1958       0          1
9  1959       0          1
10 1960       0          1

W przypadku zastosowań przedstawionych na przykład w odpowiedziach @ zx8754 i @Sotos, jest jeszcze kilka innych opcji, które nie zostały jeszcze omówione w imo.

1) Stwórz własną make_dummiesfunkcję

# example data
df2 <- data.frame(id = 1:5, year = c(1991:1994,1992))

# create a function
make_dummies <- function(v, prefix = '') {
  s <- sort(unique(v))
  d <- outer(v, s, function(v, s) 1L * (v == s))
  colnames(d) <- paste0(prefix, s)
  d
}

# bind the dummies to the original dataframe
cbind(df2, make_dummies(df2$year, prefix = 'y'))

co daje:

  id year y1991 y1992 y1993 y1994
1  1 1991     1     0     0     0
2  2 1992     0     1     0     0
3  3 1993     0     0     1     0
4  4 1994     0     0     0     1
5  5 1992     0     1     0     0

2) użyj funkcji dcastz jednego z nichTabela danych lub reshape2

 dcast(df2, id + year ~ year, fun.aggregate = length)

co daje:

  id year 1991 1992 1993 1994
1  1 1991    1    0    0    0
2  2 1992    0    1    0    0
3  3 1993    0    0    1    0
4  4 1994    0    0    0    1
5  5 1992    0    1    0    0

Jednak to nie zadziała, jeśli w kolumnie znajdują się zduplikowane wartości, dla których trzeba utworzyć atrapy. W przypadku, gdy potrzebna jest konkretna funkcja agregująca dcasti wynik dcastkonieczności scalenia z powrotem do oryginału:

# example data
df3 <- data.frame(var = c("B", "C", "A", "B", "C"))

# aggregation function to get dummy values
f <- function(x) as.integer(length(x) > 0)

# reshape to wide with the cumstom aggregation function and merge back to the original
merge(df3, dcast(df3, var ~ var, fun.aggregate = f), by = 'var', all.x = TRUE)

co daje (zwróć uwagę, że wynik jest uporządkowany zgodnie z bykolumną):

  var A B C
1   A 1 0 0
2   B 0 1 0
3   B 0 1 0
4   C 0 0 1
5   C 0 0 1

3) użyj spread ztidyr(z mutateoddplyr)

library(dplyr)
library(tidyr)

df2 %>% 
  mutate(v = 1, yr = year) %>% 
  spread(yr, v, fill = 0)

co daje:

  id year 1991 1992 1993 1994
1  1 1991    1    0    0    0
2  2 1992    0    1    0    0
3  3 1993    0    0    1    0
4  4 1994    0    0    0    1
5  5 1992    0    1    0    0

Answer 19

To, co zwykle robię podczas pracy z tego rodzaju zmiennymi fikcyjnymi, to:

(1) jak wygenerować zmienną fikcyjną dla obserwacji nr 10, czyli dla roku 1957 (wartość = 1 w 1957 i zero w innym przypadku)

data$factor_year_1 <- factor ( with ( data, ifelse ( ( year == 1957 ), 1 , 0 ) ) )

(2) jak wygenerować zmienną zastępczą, która przed rokiem 1957 ma wartość zero i przyjmuje wartość 1 od 1957 r. Do 2009 r.?

data$factor_year_2 <- factor ( with ( data, ifelse ( ( year < 1957 ), 0 , 1 ) ) )

Następnie mogę wprowadzić ten czynnik jako zmienną zastępczą w moich modelach. Na przykład, aby zobaczyć, czy istnieje długoterminowy trend w zmiennej y :

summary ( lm ( y ~ t,  data = data ) )

Mam nadzieję że to pomoże!

Answer 20

7

Jeśli chcesz uzyskać zmienne zastępcze K, zamiast K-1, spróbuj:

dummies = table(1:length(year),as.factor(year))

Najlepsza,

Fernando Hoces De La Guardia
źródło

tabela wynikowa nie może być używana jako data.frame. Jeśli to jest problem, użyj, as.data.frame.matrix(dummies)aby przetłumaczyć to na jeden

sheß

Answer 21

tabela wynikowa nie może być używana jako data.frame. Jeśli to jest problem, użyj, as.data.frame.matrix(dummies)aby przetłumaczyć to na jeden

sheß

Answer 22

Przeczytałem to na forum kaggle:

#Generate example dataframe with character column
example <- as.data.frame(c("A", "A", "B", "F", "C", "G", "C", "D", "E", "F"))
names(example) <- "strcol"

#For every unique value in the string column, create a new 1/0 column
#This is what Factors do "under-the-hood" automatically when passed to function requiring numeric data
for(level in unique(example$strcol)){
  example[paste("dummy", level, sep = "_")] <- ifelse(example$strcol == level, 1, 0)
}

Answer 23

Ta ifelsefunkcja jest najlepsza dla prostej logiki, takiej jak ta.

> x <- seq(1950, 1960, 1)

    ifelse(x == 1957, 1, 0)
    ifelse(x <= 1957, 1, 0)

>  [1] 0 0 0 0 0 0 0 1 0 0 0
>  [1] 1 1 1 1 1 1 1 1 0 0 0

Ponadto, jeśli chcesz, aby zwracał dane postaci, możesz to zrobić.

> x <- seq(1950, 1960, 1)

    ifelse(x == 1957, "foo", "bar")
    ifelse(x <= 1957, "foo", "bar")

>  [1] "bar" "bar" "bar" "bar" "bar" "bar" "bar" "foo" "bar" "bar" "bar"
>  [1] "foo" "foo" "foo" "foo" "foo" "foo" "foo" "foo" "bar" "bar" "bar"

Zmienne kategorialne z zagnieżdżeniem ...

> x <- seq(1950, 1960, 1)

    ifelse(x == 1957, "foo", ifelse(x == 1958, "bar","baz"))

>  [1] "baz" "baz" "baz" "baz" "baz" "baz" "baz" "foo" "bar" "baz" "baz"

To najprostsza opcja.

Answer 24

Innym sposobem jest użycie mtabulatez qdapToolspakietu, tj

df <- data.frame(var = sample(c("A", "B", "C"), 5, replace = TRUE))
  var
#1   C
#2   A
#3   C
#4   B
#5   B

library(qdapTools)
mtabulate(df$var)

co daje,

Answer 25

Przekonwertuj swoje dane na data.table i użyj zestawu przez odwołanie i filtrowanie wierszy

library(data.table)

dt <- as.data.table(your.dataframe.or.whatever)
dt[, is.1957 := 0]
dt[year == 1957, is.1957 := 1]

Przykład zabawki potwierdzającej koncepcję:

library(data.table)

dt <- as.data.table(cbind(c(1, 1, 1), c(2, 2, 3)))
dt[, is.3 := 0]
dt[V2 == 3, is.3 := 1]

Answer 26

Ta jedna wkładka w bazie R.

model.matrix( ~ iris$Species - 1)

daje

    iris$Speciessetosa iris$Speciesversicolor iris$Speciesvirginica
1                    1                      0                     0
2                    1                      0                     0
3                    1                      0                     0
4                    1                      0                     0
5                    1                      0                     0
6                    1                      0                     0
7                    1                      0                     0
8                    1                      0                     0
9                    1                      0                     0
10                   1                      0                     0
11                   1                      0                     0
12                   1                      0                     0
13                   1                      0                     0
14                   1                      0                     0
15                   1                      0                     0
16                   1                      0                     0
17                   1                      0                     0
18                   1                      0                     0
19                   1                      0                     0
20                   1                      0                     0
21                   1                      0                     0
22                   1                      0                     0
23                   1                      0                     0
24                   1                      0                     0
25                   1                      0                     0
26                   1                      0                     0
27                   1                      0                     0
28                   1                      0                     0
29                   1                      0                     0
30                   1                      0                     0
31                   1                      0                     0
32                   1                      0                     0
33                   1                      0                     0
34                   1                      0                     0
35                   1                      0                     0
36                   1                      0                     0
37                   1                      0                     0
38                   1                      0                     0
39                   1                      0                     0
40                   1                      0                     0
41                   1                      0                     0
42                   1                      0                     0
43                   1                      0                     0
44                   1                      0                     0
45                   1                      0                     0
46                   1                      0                     0
47                   1                      0                     0
48                   1                      0                     0
49                   1                      0                     0
50                   1                      0                     0
51                   0                      1                     0
52                   0                      1                     0
53                   0                      1                     0
54                   0                      1                     0
55                   0                      1                     0
56                   0                      1                     0
57                   0                      1                     0
58                   0                      1                     0
59                   0                      1                     0
60                   0                      1                     0
61                   0                      1                     0
62                   0                      1                     0
63                   0                      1                     0
64                   0                      1                     0
65                   0                      1                     0
66                   0                      1                     0
67                   0                      1                     0
68                   0                      1                     0
69                   0                      1                     0
70                   0                      1                     0
71                   0                      1                     0
72                   0                      1                     0
73                   0                      1                     0
74                   0                      1                     0
75                   0                      1                     0
76                   0                      1                     0
77                   0                      1                     0
78                   0                      1                     0
79                   0                      1                     0
80                   0                      1                     0
81                   0                      1                     0
82                   0                      1                     0
83                   0                      1                     0
84                   0                      1                     0
85                   0                      1                     0
86                   0                      1                     0
87                   0                      1                     0
88                   0                      1                     0
89                   0                      1                     0
90                   0                      1                     0
91                   0                      1                     0
92                   0                      1                     0
93                   0                      1                     0
94                   0                      1                     0
95                   0                      1                     0
96                   0                      1                     0
97                   0                      1                     0
98                   0                      1                     0
99                   0                      1                     0
100                  0                      1                     0
101                  0                      0                     1
102                  0                      0                     1
103                  0                      0                     1
104                  0                      0                     1
105                  0                      0                     1
106                  0                      0                     1
107                  0                      0                     1
108                  0                      0                     1
109                  0                      0                     1
110                  0                      0                     1
111                  0                      0                     1
112                  0                      0                     1
113                  0                      0                     1
114                  0                      0                     1
115                  0                      0                     1
116                  0                      0                     1
117                  0                      0                     1
118                  0                      0                     1
119                  0                      0                     1
120                  0                      0                     1
121                  0                      0                     1
122                  0                      0                     1
123                  0                      0                     1
124                  0                      0                     1
125                  0                      0                     1
126                  0                      0                     1
127                  0                      0                     1
128                  0                      0                     1
129                  0                      0                     1
130                  0                      0                     1
131                  0                      0                     1
132                  0                      0                     1
133                  0                      0                     1
134                  0                      0                     1
135                  0                      0                     1
136                  0                      0                     1
137                  0                      0                     1
138                  0                      0                     1
139                  0                      0                     1
140                  0                      0                     1
141                  0                      0                     1
142                  0                      0                     1
143                  0                      0                     1
144                  0                      0                     1
145                  0                      0                     1
146                  0                      0                     1
147                  0                      0                     1
148                  0                      0                     1
149                  0                      0                     1
150                  0                      0                     1

Answer 27

Używam takiej funkcji (dla data.table):

# Ta funkcja dla obiektu data.table i zmiennej var.name typu factor tworzy dummy variables o nazwach "var.name: (level1)"
factorToDummy <- function(dtable, var.name){
  stopifnot(is.data.table(dtable))
  stopifnot(var.name %in% names(dtable))
  stopifnot(is.factor(dtable[, get(var.name)]))

  dtable[, paste0(var.name,": ",levels(get(var.name)))] -> new.names
  dtable[, (new.names) := transpose(lapply(get(var.name), FUN = function(x){x == levels(get(var.name))})) ]

  cat(paste("\nDodano zmienne dummy: ", paste0(new.names, collapse = ", ")))
}

Stosowanie:

data <- data.table(data)
data[, x:= droplevels(x)]
factorToDummy(data, "x")

Answer 28

1

Innym sposobem, w jaki możesz to zrobić, jest użycie

ifelse(year < 1965 , 1, 0)

Sophia J.
źródło

Answer 29

Cześć, napisałem tę ogólną funkcję, aby wygenerować zmienną fikcyjną, która zasadniczo replikuje funkcję zamiany w Stata.

Jeśli x jest ramką danych, to x i chcę fałszywą zmienną o nazwie, aktóra przyjmie wartość, 1gdy x$bprzyjmie wartośćc

introducedummy<-function(x,a,b,c){
   g<-c(a,b,c)
  n<-nrow(x)
  newcol<-g[1]
  p<-colnames(x)
  p2<-c(p,newcol)
  new1<-numeric(n)
  state<-x[,g[2]]
  interest<-g[3]
  for(i in 1:n){
    if(state[i]==interest){
      new1[i]=1
    }
    else{
      new1[i]=0
    }
  }
    x$added<-new1
    colnames(x)<-p2
    x
  }

Answer 30

Możemy również użyć cSplit_efrom splitstackshape. Używając danych @ zx8754

df1 <- data.frame(id = 1:4, year = 1991:1994)
splitstackshape::cSplit_e(df1, "year", fill = 0)

#  id year year_1 year_2 year_3 year_4
#1  1 1991      1      0      0      0
#2  2 1992      0      1      0      0
#3  3 1993      0      0      1      0
#4  4 1994      0      0      0      1

Aby pracować dla danych innych niż numerycznej musimy określić typejako "character"jednoznacznie

df1 <- data.frame(id = 1:4, let = LETTERS[1:4])
splitstackshape::cSplit_e(df1, "let", fill = 0, type = "character")

#  id let let_A let_B let_C let_D
#1  1   A     1     0     0     0
#2  2   B     0     1     0     0
#3  3   C     0     0     1     0
#4  4   D     0     0     0     1

Wygeneruj zmienną zastępczą

Odpowiedzi:

caret::dummyVars

recipes::step_dummy

`caret::dummyVars`

`recipes::step_dummy`