我目前正在开发的程序从网站检索 URL 并将它们放入列表中。我要获取的是 URL 的最后一部分。
因此,如果我的 URL 列表中的第一个元素是 "https://docs.python.org/3.4/tutorial/interpreter.html"
我想删除 之前的所有内容>“解释器.html”
。
是否有函数、库或正则表达式可用于实现此目的?我查看了其他 Stack Overflow 帖子,但解决方案似乎不起作用。
这是我多次尝试中的两个:
for link in link_list:
file_names.append(link.replace('/[^/]*$',''))
print(file_names)
&
for link in link_list:
file_names.append(link.rpartition('//')[-1])
print(file_names)
最佳答案
看看str.rsplit
.
>>> s = 'https://docs.python.org/3.4/tutorial/interpreter.html'
>>> s.rsplit('/',1)
['https://docs.python.org/3.4/tutorial', 'interpreter.html']
>>> s.rsplit('/',1)[1]
'interpreter.html'
并使用正则表达式
>>> re.search(r'(.*)/(.*)',s).group(2)
'interpreter.html'
然后匹配位于最后一个 /
和 String 末尾之间的第二组。这是 RegEx 中贪婪技术的贪婪用法。
小提示 - 您的代码中 link.rpartition('//')[-1]
的问题是您试图匹配 //
而不是 /
。因此,删除多余的 /
,如 link.rpartition('/')[-1]
中所示。
关于python - 删除最后一个正斜杠之前的部分字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29657384/