例如,我有:
<a class="banana" href="http://example.com">link1</a>
<a href="http://example2.com" class="banana"><img ... /></a>
<a class="banana">link2</a>
<a href="http://google.com">link3</a>
如何获得:
['<a href="http://example2.com" class="banana"><img ... /></a>','<a href="http://google.com">link3</a>']
最佳答案
您可以使用 css 选择器 a[href]
获取带有 href
属性的 a
标签:
h = '''
<a class="banana" href="http://example.com">link1</a>
<a href="http://example2.com" class="banana"><img ... /></a>
<a class="banana">link2</a>
<a href="http://google.com">link3</a>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(h)
print(soup.select('a[href]'))
输出:
[<a class="banana" href="http://example.com">link1</a>,
<a class="banana" href="http://example2.com"><img ...=""/></a>,
<a href="http://google.com">link3</a>]
关于python - beautifulsoup - 如何查找以特定属性开头的标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22124257/