python - python中的正则表达式http

标签 python html regex

我有一个很长的文本,我想获取文本中与以下模式匹配的所有条目:

http******.id.txt,其中 * 可以是任何条目(长度未知),点实际上是文本中的点。我想要一个包含与此类模式匹配的所有条目的列表。

众多尝试之一是,

c = re.match(r'^(http)(.*)id.txt', b) 

我也尝试过,

c = re.findall(r'(http)(.*)fastq.gz', b)

但他们都没有给出 http***.fastq.gz 条目的列表。

谢谢!

最佳答案

您是否尝试过使用 re.findall

import re

b = 'http://match.id.txt --- blablabla --- http://match2.id.txt'
matches = re.findall(r'http.*?\.id\.txt', b)
print matches  # ['http://match.id.txt', 'http://match2.id.txt']

.*后面的?将匹配减少到最小(没有它,它匹配整个字符串,.* = match.id .txt --- blablabla --- http://match2)。请参阅一些有关正则表达式的教程以了解更多信息。

<强> Demo available here

关于python - python中的正则表达式http,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18726985/

相关文章:

html - 使用 CSS 绘制重叠的椭圆

html - 移动设备上未拾取 CSS 工作表

javascript - 当存在全局标志时,为什么 String.match() 不产生预期结果?

python - 计算复杂度

python - 如何在 BaseHTTPRequestHandler.do_POST() 中提取 HTTP 消息体?

python - Pandas / NumPy : How to Turn Column Data Into Sparse Matrix

python - Pandas 的数据框(Python)是否更接近 R 的数据框或数据表?

html - DIV 未显示全宽。为什么?

regex - Notepad++ 忽略正则表达式的结束分隔符

json - 将json字段解码为* regexp.Regexp类型的struct字段