再次使用 Python 正则表达式 - 匹配 URL

标签 python regex

我有这样一个正则表达式:

 re.compile(r"((https?):((//)|(\\\\))+[\w\d:#@%/;$()~_?\+-=\\\.&]*)", re.MULTILINE|re.UNICODE)

但这不包括 hashbangs (#!)。我需要更改什么才能使其正常工作?我知道我可以将 ! 添加到带有 #@% 等的组中,但这会选择类似

的内容
Check this out: http://example.com/something/!!!

我想避免这种情况。

最佳答案

不要尝试为匹配 URL 创建自己的正则表达式。使用已经解决此类问题的其他人,例如 this one .

关于再次使用 Python 正则表达式 - 匹配 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6718633/

相关文章:

html - 将结束标记 append 到 HTML 中不完整的输入元素

python - 使用共享数组在 Python 中实现快速 FFT 的内存对齐

python lxml xpath 在带有文本的列表中返回转义字符

python - urllib.request.urlopen 的行为很奇怪。第二天不返回数据。为什么?

Python RegEx 匹配异常

Java regexp - 双负先行 - 忽略括号 - 忽略以 '-' 开头的行

类中的Python调用方法

regex - 如何从 Typescript 中的正则表达式 exec 匹配访问组?

Javascript RegExp 匹配 <a> 标签之间的文本

android - 十进制输入过滤器android