我有这个网址:
http://www.exmaple.com/boo/a.php?a=jsd
我想要的输出是这样的:
http://www.exmaple.com/boo/
如果我有的话就很明智
http://www.exmaple.com/abc.html
应该是
http://www.exmaple.com/
和
http://www.exmaple.com/
应该返回
http://www.exmaple.com/
没有任何变化
这是我试过的
re.sub(r'\?[\S]+','',"http://www.exmaple.com/boo/a.php?a=jsd")
但它返回
http://www.exmaple.com/boo/a.php
有什么建议可以做些什么来获得正确的输出,或者有没有人有更好的想法来完成这项工作?
最佳答案
请像这样使用 stdlib urlparse
模块。一般来说,除非绝对必要,否则我尽量避免使用正则表达式。
from urlparse import urlparse, urlunparse
>>> parsed = urlparse("http://www.exmaple.com/boo/a.php?a=jsd")
>>> scheme, netloc, path, params, query, fragment = parsed
>>> urlunparse((scheme,netloc,path.split('/')[1],'','',''))
'http://www.exmaple.com/boo'
关于python - 在 python 中从 URL 中删除 GET 变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14216998/