Wyrażenie regularne do wyszukiwania adresów URL w ciągu znaków

95

Czy ktoś zna wyrażenie regularne, którego mógłbym użyć do znalezienia adresów URL w ciągu znaków? Znalazłem w Google wiele wyrażeń regularnych do określania, czy cały ciąg jest adresem URL, ale muszę mieć możliwość przeszukiwania całego ciągu w poszukiwaniu adresów URL. Na przykład chciałbym móc znaleźć www.google.comi http://yahoo.comw następującym ciągu:

Hello www.google.com World http://yahoo.com

Nie szukam konkretnych adresów URL w ciągu. Szukam WSZYSTKICH adresów URL w ciągu, dlatego potrzebuję wyrażenia regularnego.

user758263
źródło
Jeśli masz wyrażenia dla całego ciągu, po prostu wyjmij ^ i $, aby dopasować je do części ciągu.
entonio

Odpowiedzi:

206

To jest ten, którego używam

(http|ftp|https)://([\w_-]+(?:(?:\.[\w_-]+)+))([\w.,@?^=%&:/~+#-]*[\w@?^=%&/~+#-])?

U mnie działa, u ciebie też powinno działać.

Rajeev
źródło
7
Nie zapomnij uciec przed ukośnikami.
Mark
1
Jest rok 2017, a nazwy domen Unicode są wszędzie. \wmoże nie odpowiadać symboli międzynarodowych (w zależności od silnika regex), zakres konieczna jest zamiast: a-zA-Z0-9\u00A0-\uD7FF\uF900-\uFDCF\uFDF0-\uFFEF.
Michael Antipin
3
Jest to dobre do ogólnego celu, ale jest wiele przypadków, w których to nie łapie. Wymusza to, aby linki były poprzedzone protokołem. Jeśli zdecydujesz się zignorować protokoły, zakończenia e-maili są akceptowane, tak jak ma to miejsce w przypadku [email protected].
Squazz
4
nie powinno [\w_-]być [\w-]? ponieważ już \wpasuje _. per mozilla docs
transang
2
Głosowano za, ale ta odpowiedź nie działa zgodnie z pytaniem www.yahoo.com. """(http|ftp|https)://([\w_-]+(?:(?:\.[\w_-]+)+))([\w.,@?^=%&:/~+#-]*[\w@?^=%&/~+#-])?""".r.findAllIn("www.google.com").toList. TAKŻE BRAKUJE WYJAŚNIENIA odpowiedzi
prayagupd
45

Chyba żadne wyrażenie regularne nie jest idealne do tego zastosowania. Znalazłem całkiem solidne jeden tutaj

/(?:(?:https?|ftp|file):\/\/|www\.|ftp\.)(?:\([-A-Z0-9+&@#\/%=~_|$?!:,.]*\)|[-A-Z0-9+&@#\/%=~_|$?!:,.])*(?:\([-A-Z0-9+&@#\/%=~_|$?!:,.]*\)|[A-Z0-9+&@#\/%=~_|$])/igm

Niektóre różnice / zalety w porównaniu z innymi zamieszczonymi tutaj:

  • To nie nie pasuje do adresów e-mail
  • Pasuje do localhost: 12345
  • Nie wykryje czegoś takiego jak moo.combez httplubwww

Zobacz tutaj przykłady

Stefan Henze
źródło
4
pasuje do www.e To nie jest prawidłowy adres URL
Ihor Herasymchuk
Ta gopcja nie jest prawidłowa we wszystkich implementacjach wyrażeń regularnych (np. We wbudowanej implementacji Rubiego).
Huliax
23
text = """The link of this question: /programming/6038061/regular-expression-to-find-urls-within-a-string
Also there are some urls: www.google.com, facebook.com, http://test.com/method?param=wasd
The code below catches all urls in text and returns urls in list."""

urls = re.findall('(?:(?:https?|ftp):\/\/)?[\w/\-?=%.]+\.[\w/\-?=%.]+', text)
print(urls)

Wynik:

[
    '/programming/6038061/regular-expression-to-find-urls-within-a-string', 
    'www.google.com', 
    'facebook.com',
    'http://test.com/method?param=wasd'
]
GooDeeJaY
źródło
Kotlin val urlRegex = "(? :( ?: https? | Ftp): \\ / \\ /)? [\\ w / \\ -? =%.] + \\. [\\ w / \\ - ? =%.] + "
Akshay Nandwana
Brak &parametrów w adresie URL. np. http://test.com/method?param=wasd&param2=wasd2brakuje param2
TrophyGeek
10

Żadne z przedstawionych tutaj rozwiązań nie rozwiązało problemów / przypadków użycia, które miałem.

To, co tu podałem, jest najlepsze, jakie do tej pory znalazłem / wykonałem. Zaktualizuję go, gdy znajdę nowe przypadki skrajne, z którymi nie radzi sobie.

\b
  #Word cannot begin with special characters
  (?<![@.,%&#-])
  #Protocols are optional, but take them with us if they are present
  (?<protocol>\w{2,10}:\/\/)?
  #Domains have to be of a length of 1 chars or greater
  ((?:\w|\&\#\d{1,5};)[.-]?)+
  #The domain ending has to be between 2 to 15 characters
  (\.([a-z]{2,15})
       #If no domain ending we want a port, only if a protocol is specified
       |(?(protocol)(?:\:\d{1,6})|(?!)))
\b
#Word cannot end with @ (made to catch emails)
(?![@])
#We accept any number of slugs, given we have a char after the slash
(\/)?
#If we have endings like ?=fds include the ending
(?:([\w\d\?\-=#:%@&.;])+(?:\/(?:([\w\d\?\-=#:%@&;.])+))*)?
#The last char cannot be one of these symbols .,?!,- exclude these
(?<![.,?!-])
Squazz
źródło
1
Czy istnieje sposób, aby ten skrypt był przyjazny dla języka JavaScript? Ponieważ nazwane grupy przechwytywania nie są tam w pełni funkcjonalne, więc sprawdzanie wartości protokołu nie sprawdza poprawności.
einord
6

Myślę, że ten wzorzec regex obsługuje dokładnie to, co chcesz

/(http|https|ftp|ftps)\:\/\/[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,3}(\/\S*)?/

a to jest przykład fragmentu kodu do wyodrębniania adresów URL:

// The Regular Expression filter
$reg_exUrl = "/(http|https|ftp|ftps)\:\/\/[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,3}(\/\S*)?/";

// The Text you want to filter for urls
$text = "The text you want  /programming/6038061/regular-expression-to-find-urls-within-a-string to filter goes here.";

// Check if there is a url in the text
preg_match_all($reg_exUrl, $text, $url,$matches);
var_dump($matches);
Yuseferi
źródło
5

Wszystkie powyższe odpowiedzi nie są zgodne ze znakami Unicode w adresie URL, na przykład: http://google.com?query=đức+filan+đã+search

Aby rozwiązać ten problem, powinien zadziałać:

(ftp:\/\/|www\.|https?:\/\/){1}[a-zA-Z0-9u00a1-\uffff0-]{2,}\.[a-zA-Z0-9u00a1-\uffff0-]{2,}(\S*)
Duc Filan
źródło
2
Znaki Unicode były zabronione zgodnie z RFC 1738 w adresach URL ( faqs.org/rfcs/rfc1738.html ). Aby były zgodne ze standardami, musiałyby być zakodowane w procentach - chociaż myślę, że mogło się to zmienić niedawno - warto przeczytać w3.org/International/articles/idn-and-iri
mrswadge
@mrswadge Po prostu omawiam przypadki. Nie jesteśmy pewni, czy wszystkim zależy na standardzie. Dziękuję za informacje.
Duc Filan
Tylko ten działał idealnie dla mnie, mając adresy takie jak „ example.com ” „www.exmaple.com” „ example.com ” „ example.co.in ” „ exmaple.com/?q='me '”
Krissh
4

Jeśli musisz być rygorystyczny w wyborze linków, wybrałbym:

(?i)\b((?:[a-z][\w-]+:(?:/{1,3}|[a-z0-9%])|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’]))

Aby uzyskać więcej informacji, przeczytaj to:

Ulepszony liberalny, dokładny wzorzec Regex dla dopasowanych adresów URL

Tommaso Belluzzo
źródło
2
Nie rób tego. regular-expressions.info/catastrophic.html Zabije twoją aplikację ...
Auric
4

Znalazłem to, które obejmuje większość przykładowych linków, w tym części podkatalogów.

Regex to:

(?:(?:https?|ftp):\/\/|\b(?:[a-z\d]+\.))(?:(?:[^\s()<>]+|\((?:[^\s()<>]+|(?:\([^\s()<>]+\)))?\))+(?:\((?:[^\s()<>]+|(?:\(?:[^\s()<>]+\)))?\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’]))?
Thilanka Bowala
źródło
3

Jeśli masz wzorzec adresu URL, powinieneś być w stanie wyszukać go w swoim ciągu. Po prostu upewnij się, że wzorzec nie ma ^i $oznacza początek i koniec ciągu adresu URL. Jeśli więc P jest wzorcem adresu URL, poszukaj dopasowań dla P.

manojlds
źródło
To jest wyrażenie regularne, które znalazłem, które sprawdza, czy cały ciąg jest adresem URL. Wyciągnąłem ^ na początku i na końcu, jak powiedziałeś, i nadal nie działało. Co ja robię źle? ^(http|https|ftp)\://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,3}(:[a-zA-Z0-9]*)?/?([a-zA-Z0-9\-\._\?\,\'/\\\+&amp;%\$#\=~])*[^\.\,\)\(\s]$
user758263
Może pomóc, jeśli pokażesz, jakiego języka używasz. Tak czy inaczej, koniecznie sprawdź http://regexpal.com/; tam możesz testować różne wyrażenia na swoim łańcuchu, dopóki nie uzyskasz poprawnego wyniku.
entonio
@ user758263 - czy naprawdę potrzebujesz tak złożonego wyrażenia regularnego dla adresu URL? Zależy od tego, jakie możliwe adresy URL możesz znaleźć. Zobacz także gskinner.com/RegExr, aby wypróbować wyrażenie regularne. Mają też setki próbek po prawej stronie pod Communityzakładką, w tym te dla adresów URL
manojlds
Próbuję znaleźć wszystkie możliwe adresy URL i używam C ++. Dzięki za linki entonio i manojlds. Witryna gskinner była szczególnie pomocna, ponieważ zawierała próbki.
user758263
3

Użyłem poniżej wyrażenia regularnego, aby znaleźć adres URL w ciągu:

/(http|https)\:\/\/[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,3}(\/\S*)?/
aditya
źródło
2
[a-zA-Z]{2,3}jest naprawdę kiepski pod względem dopasowania TLD, zobacz oficjalną listę: data.iana.org/TLD/tlds-alpha-by-domain.txt
Toto
3

Tutaj trochę bardziej zoptymalizowane wyrażenie regularne:

(?:(?:(https?|ftp|file):\/\/|www\.|ftp\.)|([\w\-_]+(?:\.|\s*\[dot\]\s*[A-Z\-_]+)+))([A-Z\-\.,@?^=%&amp;:\/~\+#]*[A-Z\-\@?^=%&amp;\/~\+#]){2,6}?

Oto test z danymi: https://regex101.com/r/sFzzpY/6

wprowadź opis obrazu tutaj

Mindaugas Jaraminas
źródło
2

Krótkie i proste. Nie testowałem jeszcze w kodzie javascript, ale wygląda na to, że zadziała:

((http|ftp|https):\/\/)?(([\w.-]*)\.([\w]*))

Kod na regex101.com

Podgląd kodu

bafsar
źródło
1
Podobało mi się twoje wyrażenie regularne, ponieważ było to dokładnie to, czego szukałem: musiałem zidentyfikować i usunąć adresy URL z jakiegoś tekstu, a nie zweryfikować. Pracował w szynach.
Dagmar
@Dagmar Miło mi to słyszeć :)
bafsar
1

Jest to niewielka poprawa / dostosowanie (w zależności od potrzeb) odpowiedzi Rajeeva:

([\w\-_]+(?:(?:\.|\s*\[dot\]\s*[A-Z\-_]+)+))([A-Z\-\.,@?^=%&amp;:/~\+#]*[A-Z\-\@?^=%&amp;/~\+#]){2,6}?

Zobacz tutaj przykład tego, co robi, a czego nie.

Pozbyłem się czeku na „http” itp., Ponieważ chciałem przechwycić adresy URL bez tego. Dodałem nieznacznie do wyrażenia regularnego, aby złapać jakieś zaciemnione adresy URL (np. Gdy użytkownik używa [kropki] zamiast „.”). W końcu zastąpiłem „\ w” „AZ” na i „{2,3}”, aby zredukować fałszywe alarmy, takie jak v2.0 i „moo.0dd”.

Wszelkie ulepszenia tego powitania.

avjaarsveld
źródło
[a-zA-Z]{2,3}jest naprawdę kiepski pod względem dopasowania TLD, zobacz oficjalną listę: data.iana.org/TLD/tlds-alpha-by-domain.txt . Również twoje dopasowanie wyrażenia regularnego _.........&&&&&&nie jest pewne, czy jest to prawidłowy adres URL.
Toto,
Dzięki za to JE SUIS CHAELIE, jakieś sugestie dotyczące poprawy (szczególnie w przypadku fałszywie pozytywnych wyników)?
avjaarsveld
1

Prawdopodobnie zbyt uproszczona, ale działająca metoda to:

[localhost|http|https|ftp|file]+://[\w\S(\.|:|/)]+

Przetestowałem to w Pythonie i tak długo, jak analiza ciągu zawiera spację przed i po oraz nie ma w adresie URL (czego nigdy wcześniej nie widziałem), powinno być dobrze.

Oto ide online, który to demonstruje

Jednak oto kilka korzyści z jej używania:

  • Rozpoznaje, file:a localhosttakże adresy IP
  • Bez nich nigdy się nie uda
  • Nie ma nic przeciwko nietypowym znakom, takim jak #lub -(patrz adres URL tego postu)
Szymon
źródło
1

Użycie wyrażenia regularnego dostarczonego przez @JustinLevene nie miało odpowiednich sekwencji ucieczki w ukośnikach. Zaktualizowany, aby teraz był poprawny i dodany w stanie zgodnym również z protokołem FTP: będzie pasować do wszystkich adresów URL z protokołami lub bez nich oraz bez „www”.

Kod: ^((http|ftp|https):\/\/)?([\w_-]+(?:(?:\.[\w_-]+)+))([\w.,@?^=%&:\/~+#-]*[\w@?^=%&\/~+#-])?

Przykład: https://regex101.com/r/uQ9aL4/65

Justin E. Samuels
źródło
1

Napisałem jeden sam:

let regex = /([\w+]+\:\/\/)?([\w\d-]+\.)*[\w-]+[\.\:]\w+([\/\?\=\&\#]?[\w-]+)*\/?/gm

Działa na WSZYSTKICH następujących domenach:

https://www.facebook.com
https://app-1.number123.com
http://facebook.com
ftp://facebook.com
http://localhost:3000
localhost:3000/
unitedkingdomurl.co.uk
this.is.a.url.com/its/still=going?wow
shop.facebook.org
app.number123.com
app1.number123.com
app-1.numbEr123.com
app.dashes-dash.com
www.facebook.com
facebook.com
fb.com/hello_123
fb.com/hel-lo
fb.com/hello/goodbye
fb.com/hello/goodbye?okay
fb.com/hello/goodbye?okay=alright
Hello www.google.com World http://yahoo.com
https://www.google.com.tr/admin/subPage?qs1=sss1&qs2=sss2&qs3=sss3#Services
https://google.com.tr/test/subPage?qs1=sss1&qs2=sss2&qs3=sss3#Services
http://google.com/test/subPage?qs1=sss1&qs2=sss2&qs3=sss3#Services
ftp://google.com/test/subPage?qs1=sss1&qs2=sss2&qs3=sss3#Services
www.google.com.tr/test/subPage?qs1=sss1&qs2=sss2&qs3=sss3#Services
www.google.com/test/subPage?qs1=sss1&qs2=sss2&qs3=sss3#Services
drive.google.com/test/subPage?qs1=sss1&qs2=sss2&qs3=sss3#Services
https://www.example.pl
http://www.example.com
www.example.pl
example.com
http://blog.example.com
http://www.example.com/product
http://www.example.com/products?id=1&page=2
http://www.example.com#up
http://255.255.255.255
255.255.255.255

Możesz zobaczyć, jak to działa tutaj w regex101 i dostosować w razie potrzeby

wongz
źródło
0

Używam logiki znajdowania tekstu między dwiema kropkami lub kropkami

poniższe wyrażenie regularne działa dobrze z Pythonem

(?<=\.)[^}]*(?=\.)
faisal00813
źródło
0

Dopasowanie adresu URL w tekście nie powinno być tak skomplikowane

(?:(?:(?:ftp|http)[s]*:\/\/|www\.)[^\.]+\.[^ \n]+)

https://regex101.com/r/wewpP1/2

naT erraT
źródło
0

Użyłem tego

^(https?:\\/\\/([a-zA-z0-9]+)(\\.[a-zA-z0-9]+)(\\.[a-zA-z0-9\\/\\=\\-\\_\\?]+)?)$
Maikon Ayres Da Silva
źródło
0
(?:vnc|s3|ssh|scp|sftp|ftp|http|https)\:\/\/[\w\.]+(?:\:?\d{0,5})|(?:mailto|)\:[\w\.]+\@[\w\.]+

Jeśli chcesz wyjaśnić każdą część, wypróbuj regexr [.] Com, gdzie uzyskasz świetne wyjaśnienie każdej postaci.

Jest to podzielone znakiem „|” lub „LUB”, ponieważ nie wszystkie przydatne identyfikatory URI mają „//”, więc w tym miejscu możesz utworzyć listę schematów jako lub warunków, które chciałbyś dopasować.

skrap3e
źródło
0

Użyłem klasy C # Uri i działa dobrze z adresem IP, localhost

 public static bool CheckURLIsValid(string url)
    {
        Uri returnURL;

       return (Uri.TryCreate(url, UriKind.Absolute, out returnURL)
           && (returnURL.Scheme == Uri.UriSchemeHttp || returnURL.Scheme == Uri.UriSchemeHttps));


    }
MayankGaur
źródło
0

Podobało mi się rozwiązanie Stefana Henze, ale przyniosło 34,56. Jest zbyt ogólny i mam nieprzetworzony html. Istnieją 4 kotwice dla adresu URL;

www,

http: \ (i co),

. po którym następują litery, a następnie /,

lub litery. i jeden z nich: https://ftp.isc.org/www/survey/reports/current/bynum.txt .

Wykorzystałem wiele informacji z tego wątku. Dziękuję wam wszystkim.

"(((((http|ftp|https|gopher|telnet|file|localhost):\\/\\/)|(www\\.)|(xn--)){1}([\\w_-]+(?:(?:\\.[\\w_-]+)+))([\\w.,@?^=%&:\\/~+#-]*[\\w@?^=%&\\/~+#-])?)|(([\\w_-]{2,200}(?:(?:\\.[\\w_-]+)*))((\\.[\\w_-]+\\/([\\w.,@?^=%&:\\/~+#-]*[\\w@?^=%&\\/~+#-])?)|(\\.((org|com|net|edu|gov|mil|int|arpa|biz|info|unknown|one|ninja|network|host|coop|tech)|(jp|br|it|cn|mx|ar|nl|pl|ru|tr|tw|za|be|uk|eg|es|fi|pt|th|nz|cz|hu|gr|dk|il|sg|uy|lt|ua|ie|ir|ve|kz|ec|rs|sk|py|bg|hk|eu|ee|md|is|my|lv|gt|pk|ni|by|ae|kr|su|vn|cy|am|ke))))))(?!(((ttp|tp|ttps):\\/\\/)|(ww\\.)|(n--)))"

Powyższe rozwiązuje prawie wszystko z wyjątkiem ciągu znaków, takich jak „eurls: www.google.com, facebook.com, http: //test.com/”, który zwraca jako pojedynczy ciąg. Tbh idk, dlaczego dodałem gopher itp. Sprawdzaj kod R.

if(T){
  wierdurl<-vector()
  wierdurl[1]<-"https://JP納豆.例.jp/dir1/納豆 "
  wierdurl[2]<-"xn--jp-cd2fp15c.xn--fsq.jp "
  wierdurl[3]<-"http://52.221.161.242/2018/11/23/biofourmis-collab"
  wierdurl[4]<-"https://12000.org/ "
  wierdurl[5]<-"  https://vg-1.com/?page_id=1002 "
  wierdurl[6]<-"https://3dnews.ru/822878"
  wierdurl[7]<-"The link of this question: /programming/6038061/regular-expression-to-find-urls-within-a-string
  Also there are some urls: www.google.com, facebook.com, http://test.com/method?param=wasd
  The code below catches all urls in text and returns urls in list. "
  wierdurl[8]<-"Thelinkofthisquestion:/programming/6038061/regular-expression-to-find-urls-within-a-string
  Alsotherearesomeurls:www.google.com,facebook.com,http://test.com/method?param=wasd
  Thecodebelowcatchesallurlsintextandreturnsurlsinlist. "
  wierdurl[9]<-"Thelinkofthisquestion:/programming/6038061/regular-expression-to-find-urls-within-a-stringAlsotherearesomeurlsZwww.google.com,facebook.com,http://test.com/method?param=wasdThecodebelowcatchesallurlsintextandreturnsurlsinlist."
  wierdurl[10]<-"1facebook.com/1res"
  wierdurl[11]<-"1facebook.com/1res/wat.txt"
  wierdurl[12]<-"www.e "
  wierdurl[13]<-"is this the file.txt i need"
  wierdurl[14]<-"xn--jp-cd2fp15c.xn--fsq.jpinspiredby "
  wierdurl[15]<-"[xn--jp-cd2fp15c.xn--fsq.jp/inspiredby "
  wierdurl[16]<-"xnto--jpto-cd2fp15c.xnto--fsq.jpinspiredby "
  wierdurl[17]<-"fsety--fwdvg-gertu56.ffuoiw--ffwsx.3dinspiredby "
  wierdurl[18]<-"://3dnews.ru/822878 "
  wierdurl[19]<-" http://mywebsite.com/msn.co.uk "
  wierdurl[20]<-" 2.0http://www.abe.hip "
  wierdurl[21]<-"www.abe.hip"
  wierdurl[22]<-"hardware/software/data"
  regexstring<-vector()
  regexstring[2]<-"(http|ftp|https)://([\\w_-]+(?:(?:\\.[\\w_-]+)+))([\\w.,@?^=%&:/~+#-]*[\\w@?^=%&/~+#-])?"
  regexstring[3]<-"/(?:(?:https?|ftp|file):\\/\\/|www\\.|ftp\\.)(?:\\([-A-Z0-9+&@#\\/%=~_|$?!:,.]*\\)|[-A-Z0-9+&@#\\/%=~_|$?!:,.])*(?:\\([-A-Z0-9+&@#\\/%=~_|$?!:,.]*\\)|[A-Z0-9+&@#\\/%=~_|$])/igm"
  regexstring[4]<-"[a-zA-Z0-9\u00A0-\uD7FF\uF900-\uFDCF\uFDF0-\uFFEF]?"
  regexstring[5]<-"((http|ftp|https)\\:\\/\\/)?([\\w_-]+(?:(?:\\.[\\w_-]+)+))([\\w.,@?^=%&:/~+#-]*[\\w@?^=%&/~+#-])?"
  regexstring[6]<-"((http|ftp|https):\\/\\/)?([\\w_-]+(?:(?:\\.[\\w_-]+)+))([\\w.,@?^=%&:\\/~+#-]*[\\w@?^=%&\\/~+#-])?"
  regexstring[7]<-"(http|ftp|https)(:\\/\\/)([\\w_-]+(?:(?:\\.[\\w_-]+)+))([\\w.,@?^=%&:/~+#-]*[\\w@?^=%&/~+#-])?"
  regexstring[8]<-"(?:(?:https?|ftp|file):\\/\\/|www\\.|ftp\\.)(?:\\([-A-Z0-9+&@#/%=~_|$?!:,.]*\\)|[-A-Z0-9+&@#/%=~_|$?!:,.])*(?:\\([-A-Z0-9+&@#/%=~_|$?!:,.]*\\)|[A-Z0-9+&@#/%=~_|$])"
  regexstring[10]<-"((http[s]?|ftp):\\/)?\\/?([^:\\/\\s]+)((\\/\\w+)*\\/)([\\w\\-\\.]+[^#?\\s]+)(.*)?(#[\\w\\-]+)?"
  regexstring[12]<-"http[s:/]+[[:alnum:]./]+"
  regexstring[9]<-"http[s:/]+[[:alnum:]./]+" #in DLpages 230
  regexstring[1]<-"[[:alnum:]-]+?[.][:alnum:]+?(?=[/ :])" #in link_graphs 50
  regexstring[13]<-"^(?!mailto:)(?:(?:http|https|ftp)://)(?:\\S+(?::\\S*)?@)?(?:(?:(?:[1-9]\\d?|1\\d\\d|2[01]\\d|22[0-3])(?:\\.(?:1?\\d{1,2}|2[0-4]\\d|25[0-5])){2}(?:\\.(?:[0-9]\\d?|1\\d\\d|2[0-4]\\d|25[0-4]))|(?:(?:[a-z\\u00a1-\\uffff0-9]+-?)*[a-z\\u00a1-\\uffff0-9]+)(?:\\.(?:[a-z\\u00a1-\\uffff0-9]+-?)*[a-z\\u00a1-\\uffff0-9]+)*(?:\\.(?:[a-z\\u00a1-\\uffff]{2,})))|localhost)(?::\\d{2,5})?(?:(/|\\?|#)[^\\s]*)?$"
  regexstring[14]<-"(((((http|ftp|https):\\/\\/)|(www\\.)|(xn--)){1}([\\w_-]+(?:(?:\\.[\\w_-]+)+))([\\w.,@?^=%&:\\/~+#-]*[\\w@?^=%&\\/~+#-])?)|(([\\w_-]+(?:(?:\\.[\\w_-]+)*))((\\.((org|com|net|edu|gov|mil|int)|(([:alpha:]{2})(?=[, ]))))|([\\/]([\\w.,@?^=%&:\\/~+#-]*[\\w@?^=%&\\/~+#-])?))))(?!(((ttp|tp|ttps):\\/\\/)|(ww\\.)|(n--)))"
  regexstring[15]<-"(((((http|ftp|https|gopher|telnet|file|localhost):\\/\\/)|(www\\.)|(xn--)){1}([\\w_-]+(?:(?:\\.[\\w_-]+)+))([\\w.,@?^=%&:\\/~+#-]*[\\w@?^=%&\\/~+#-])?)|(([\\w_-]{2,200}(?:(?:\\.[\\w_-]+)*))((\\.[\\w_-]+\\/([\\w.,@?^=%&:\\/~+#-]*[\\w@?^=%&\\/~+#-])?)|(\\.((org|com|net|edu|gov|mil|int|arpa|biz|info|unknown|one|ninja|network|host|coop|tech)|(jp|br|it|cn|mx|ar|nl|pl|ru|tr|tw|za|be|uk|eg|es|fi|pt|th|nz|cz|hu|gr|dk|il|sg|uy|lt|ua|ie|ir|ve|kz|ec|rs|sk|py|bg|hk|eu|ee|md|is|my|lv|gt|pk|ni|by|ae|kr|su|vn|cy|am|ke))))))(?!(((ttp|tp|ttps):\\/\\/)|(ww\\.)|(n--)))"
    }

for(i in wierdurl){#c(7,22)
  for(c in regexstring[c(15)]) {
    print(paste(i,which(regexstring==c)))
    print(str_extract_all(i,c))
  }
}
ran8
źródło
-1

To jest najlepsza.

NSString *urlRegex="(http|ftp|https|www|gopher|telnet|file)(://|.)([\\w_-]+(?:(?:\\.[\\w_-]+)‌​+))([\\w.,@?^=%&:/~+#-]*[\\w@?^=%&/~+#-])?";
Dhinakar
źródło
-1

To jest najprostsze. które działają dla mnie dobrze.

%(http|ftp|https|www)(://|\.)[A-Za-z0-9-_\.]*(\.)[a-z]*%
Md. Miraj Khan
źródło
-1

To jest po prostu proste.

Użyj tego wzoru: \b((ftp|https?)://)?([\w-\.]+\.(com|net|org|gov|mil|int|edu|info|me)|(\d+\.\d+\.\d+\.\d+))(:\d+)?(\/[\w-\/]*(\?\w*(=\w+)*[&\w-=]*)*(#[\w-]+)*)?

Pasuje do każdego linku zawierającego:

Dozwolone protokoły: http, https i ftp

Dozwolone domeny: * .com, * .net, * .org, * .gov, * .mil, * .int, * .edu, * .info i * .me LUB IP

Dozwolone porty: prawda

Dozwolone parametry: prawda

Dozwolone skróty: prawda

Mahmoud Khudairi
źródło