python - 在 Python 中使用 LXML 解析 HTML

标签 python html parsing html-parsing lxml

我正在尝试为

解析一个网站
blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah 

(其中有很多,我希望它们都以某种标记化的形式出现)。不幸的是,HTML 非常大而且有点复杂,因此尝试沿着树向下爬行可能会花费我一些时间来整理嵌套元素。有没有简单的方法来检索它?

谢谢!

最佳答案

如果你只是想要 a 标签的 href,那么使用:

data = """blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah"""

import lxml.html
tree = lxml.html.fromstring(data)
print tree.xpath('//a/@href')

# ['THIS IS WHAT I WANT']

关于python - 在 Python 中使用 LXML 解析 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14663659/

相关文章:

python - numpy.linalg.eigh 与 numpy.linalg.svd 相比如何?

javascript - 仅使用javascript删除下一页中url的参数值

javascript - 用php计算html文本字段的输入

parsing - 将十六进制字符串转换为十进制整数

java - 从 html 文件中获取信息

c++ - 将文本文件解析为对象时的错误处理

python - 在 python pandas 中合并两个不同大小的数据框

Python C,待定,从多个线程调用一个函数

python - Spyder 在运行任何脚本时报告无效别名

javascript - 如何修复文本以使其显示在一行上?