我正在尝试为
解析一个网站blahblahblah
<a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah
(其中有很多,我希望它们都以某种标记化的形式出现)。不幸的是,HTML 非常大而且有点复杂,因此尝试沿着树向下爬行可能会花费我一些时间来整理嵌套元素。有没有简单的方法来检索它?
谢谢!
最佳答案
如果你只是想要 a
标签的 href,那么使用:
data = """blahblahblah
<a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah"""
import lxml.html
tree = lxml.html.fromstring(data)
print tree.xpath('//a/@href')
# ['THIS IS WHAT I WANT']
关于python - 在 Python 中使用 LXML 解析 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14663659/