例如地址为:
Address = <a href="http://lol1.domain.com:8888/some/page" rel="noreferrer noopener nofollow">http://lol1.domain.com:8888/some/page</a>
我想将子域保存到一个变量中,这样我就可以这样做;
print SubAddr
>> lol1
最佳答案
包裹tldextract使这项任务变得非常简单,然后如果您需要任何进一步的信息,您可以按照建议使用 urlparse:
>>> import tldextract
>>> tldextract.extract("http://lol1.domain.com:8888/some/page"
ExtractResult(subdomain='lol1', domain='domain', suffix='com')
>>> tldextract.extract("http://sub.lol1.domain.com:8888/some/page"
ExtractResult(subdomain='sub.lol1', domain='domain', suffix='com')
>>> urlparse.urlparse("http://sub.lol1.domain.com:8888/some/page")
ParseResult(scheme='http', netloc='sub.lol1.domain.com:8888', path='/some/page', params='', query='', fragment='')
请注意,tldextract 可以正确处理子域。
关于python - 使用 Python 从 URL 获取子域,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6925825/