Znajdź lokalizację znaku w ciągu

88

Chciałbym znaleźć lokalizację znaku w ciągu.

Mówić: string = "the2quickbrownfoxeswere2tired"

Chciałbym, aby funkcja powróciła 4i 24- położenie znaku 2s w string.

Ricardo
źródło
Po co używać wyrażenia regularnego? Nie ma r .indexOf()czy coś?
fge
2
Wątpię. Twórcami byli Nixers i założyli, że wszyscy znają regex. Obsługa strun w R jest trochę niezdarna.
IRTFM,

Odpowiedzi:

116

Możesz użyć gregexpr

 gregexpr(pattern ='2',"the2quickbrownfoxeswere2tired")


[[1]]
[1]  4 24
attr(,"match.length")
[1] 1 1
attr(,"useBytes")
[1] TRUE

lub może str_locate_allz pakietu, stringrktóry jest opakowaniem (od wersji 1.0)gregexpr stringi::stri_locate_allstringr

library(stringr)
str_locate_all(pattern ='2', "the2quickbrownfoxeswere2tired")

[[1]]
     start end
[1,]     4   4
[2,]    24  24

pamiętaj, że możesz po prostu użyć stringi

library(stringi)
stri_locate_all(pattern = '2', "the2quickbrownfoxeswere2tired", fixed = TRUE)

Inną opcją w bazie Rbyłoby coś takiego

lapply(strsplit(x, ''), function(x) which(x == '2'))

powinno działać (biorąc pod uwagę wektor znaków x)

mnel
źródło
jak możemy wyodrębnić liczby całkowite z list / obiektów zwróconych przez Twoje pierwsze 3 rozwiązania?
3pitt
Użyj regexprzamiast, gregexpraby łatwo uzyskać liczby całkowite. Lub użyj unlistna wyjściu, jak wskazano w innej odpowiedzi poniżej.
Arani
43

Oto kolejna prosta alternatywa.

> which(strsplit(string, "")[[1]]=="2")
[1]  4 24
Jilber Urbina
źródło
Czy możesz wyjaśnić, co to [[1]]robi?
francoiskroll
@francoiskroll, [[1]] reprezentuje pierwszy element listy.
Prafulla
20

Możesz zmienić wynik na 4 i 24 używając unlist:

unlist(gregexpr(pattern ='2',"the2quickbrownfoxeswere2tired"))
[1]  4 24

źródło
3

znajdź pozycję n-tego wystąpienia str2 w str1 (taka sama kolejność parametrów jak Oracle SQL INSTR), zwraca 0, jeśli nie zostanie znaleziona

instr <- function(str1,str2,startpos=1,n=1){
    aa=unlist(strsplit(substring(str1,startpos),str2))
    if(length(aa) < n+1 ) return(0);
    return(sum(nchar(aa[1:n])) + startpos+(n-1)*nchar(str2) )
}


instr('xxabcdefabdddfabx','ab')
[1] 3
instr('xxabcdefabdddfabx','ab',1,3)
[1] 15
instr('xxabcdefabdddfabx','xx',2,1)
[1] 0
Abdelmonem Mahmoud Amer
źródło
2

Aby znaleźć tylko pierwsze lokalizacje, użyj lapply()z min():

my_string <- c("test1", "test1test1", "test1test1test1")

unlist(lapply(gregexpr(pattern = '1', my_string), min))
#> [1] 5 5 5

# or the readable tidyverse form
my_string %>%
  gregexpr(pattern = '1') %>%
  lapply(min) %>%
  unlist()
#> [1] 5 5 5

Aby znaleźć tylko ostatnie lokalizacje, użyj lapply()z max():

unlist(lapply(gregexpr(pattern = '1', my_string), max))
#> [1]  5 10 15

# or the readable tidyverse form
my_string %>%
  gregexpr(pattern = '1') %>%
  lapply(max) %>%
  unlist()
#> [1]  5 10 15
MS Berends
źródło
1

Możesz również użyć grep:

grep('2', strsplit(string, '')[[1]])
#4 24
AlexB
źródło