正则表达式匹配 URL

标签 regex

我正在使用以下正则表达式来匹配 URL:

$search  = "/([\S]+\.(MUSEUM|TRAVEL|AERO|ARPA|ASIA|COOP|INFO|NAME|BIZ|CAT|COM|INT|JOBS|NET|ORG|PRO|TEL|AC|AD|AE|AF|AG|AI|AL|AM|AN|AO|AQ|AR|AS|AT|AU|au|AW|AX|AZ|BA|BB|BD|BE|BF|BG|BH|BI|BJ|BL|BM|BN|BO|BR|BS|BT|BV|BW|BY|BZ|CA|CC|CD|CF|CG|CH|CI|CK|CL|CM|CN|CO|CR|CU|CV|CX|CY|CZ|DE|DJ|DK|DM|DO|DZ|EC|EDU|EE|EG|EH|ER|ES|ET|EU|FI|FJ|FK|FM|FO|FR|GA|GB|GD|GE|GF|GG|GH|GI|GL|GM|GN|GOV|GP|GQ|GR|GS|GT|GU|GW|GY|HK|HM|HN|HR|HT|HU|ID|IE|IL|IM|IN|IO|IQ|IR|IS|IT|JE|JM|JO|JP|KE|KG|KH|KI|KM|KN|KP|KR|KW|KY|KZ|LA|LB|LC|LI|LK|LR|LS|LT|LU|LV|LY|MA|MC|MD|ME|MF|MG|MH|MIL|MK|ML|MM|MN|MO|MOBI|MP|MQ|MR|MS|MT|MU|MV|MW|MX|MY|MZ|NA|NC|NE|NF|NG|NI|NL|NO|NP|NR|NU|NZ|OM|PA|PE|PF|PG|PH|PK|PL|PM|PN|PR|PS|PT|PW|PY|QA|RE|RO|RS|RU|RW|SA|SB|SC|SD|SE|SG|SH|SI|SJ|SK|SL|SM|SN|SO|SR|ST|SU|SV|SY|SZ|TC|TD|TF|TG|TH|TJ|TK|TL|TM|TN|TO|R|H|TP|TR|TT|TV|TW|TZ|UA|UG|UK|UM|US|UY|UZ|VA|VC|VE|VG|VI|VN|VU|WF|WS|YE|YT|YU|ZA|ZM|ZW)([\S]*))/i";

但它有点搞砸了,因为它也匹配我不想要的“abc.php”。和像 abc...test 这样的东西。我希望它与 abc.com 相匹配。和 www.abc.com 以及 http://abc.com .

最后只需要稍微调整一下,但我不确定是什么。 (它现在不检查的任何域名后面应该有一个斜杠,它只检查\S)

感谢您的时间。

最佳答案

$search  = "#^((?#
    the scheme:
  )(?:https?://)(?#
    second level domains and beyond:
  )(?:[\S]+\.)+((?#
    top level domains:
  )MUSEUM|TRAVEL|AERO|ARPA|ASIA|EDU|GOV|MIL|MOBI|(?#
  )COOP|INFO|NAME|BIZ|CAT|COM|INT|JOBS|NET|ORG|PRO|TEL|(?#
  )A[CDEFGILMNOQRSTUWXZ]|B[ABDEFGHIJLMNORSTVWYZ]|(?#
  )C[ACDFGHIKLMNORUVXYZ]|D[EJKMOZ]|(?#
  )E[CEGHRSTU]|F[IJKMOR]|G[ABDEFGHILMNPQRSTUWY]|(?#
  )H[KMNRTU]|I[DELMNOQRST]|J[EMOP]|(?#
  )K[EGHIMNPRWYZ]|L[ABCIKRSTUVY]|M[ACDEFGHKLMNOPQRSTUVWXYZ]|(?#
  )N[ACEFGILOPRUZ]|OM|P[AEFGHKLMNRSTWY]|QA|R[EOSUW]|(?#
  )S[ABCDEGHIJKLMNORTUVYZ]|T[CDFGHJKLMNOPRTVWZ]|(?#
  )U[AGKMSYZ]|V[ACEGINU]|W[FS]|Y[ETU]|Z[AMW])(?#
    the path, can be there or not:
  )(/[a-z0-9\._/~%\-\+&\#\?!=\(\)@]*)?)$#i";

只是清理了一下。这将仅匹配 HTTP(s) 地址,并且,只要您从 IANA 正确复制了所有顶级域,只匹配那些标准化的(它不会匹配 http://localhost)和带有 http:// 的地址。宣布。

最后你应该以路径部分结束,如果它在那里,它总是以/开头。

但是,我建议遵循 Cerebrus:如果您对此不确定,请以更温和的方式学习正则表达式,并使用经过验证的模式来处理复杂的任务。

干杯,

顺便说一句:您的正则表达式也将匹配 something.rsomething.h (在您的示例中 |TO| 和 |TR| 之间)。我在我的版本中遗漏了它们,因为我猜这是一个错字。

重新阅读问题:改变
  )(?:https?://)(?#


  )(?:https?://)?(?#

(有一个 ? 额外的)来匹配没有方案的“URL”。

关于正则表达式匹配 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1141848/

相关文章:

regex - 如何改变氚变量字符串?

regex - htaccess 删除?从 url 和重定向

python - DataFrame 列比较

java - 如何使用正则表达式捕获前面有两个或三个或四个字符的 11 位数字,字符可以是点

javascript - 替换 html 标签中以某些文本开头的制表符和换行符

ios - 如何检查 objective-c 中 pan 卡编辑文本的有效性?

java - 如何使用正则表达式从字符串中解析数字

javascript - 删除停用词

Javascript正则表达式用里面的内容替换括号

java - 正则表达式仅匹配最后一次出现的情况