python - 在 Python 中使用 LXML 解析 HTML

标签 python html parsing html-parsing lxml

我正在尝试为

解析一个网站

blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah

(其中有很多，我希望它们都以某种标记化的形式出现)。不幸的是，HTML 非常大而且有点复杂，因此尝试沿着树向下爬行可能会花费我一些时间来整理嵌套元素。有没有简单的方法来检索它？

谢谢!

最佳答案

如果你只是想要 a 标签的 href，那么使用:

data = """blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah"""

import lxml.html
tree = lxml.html.fromstring(data)
print tree.xpath('//a/@href')

# ['THIS IS WHAT I WANT']

关于python - 在 Python 中使用 LXML 解析 HTML，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14663659/

上一篇：javascript - pjax 后页面重新加载

下一篇：javascript - 内联 Javascript 未执行

javascript - 仅使用javascript删除下一页中url的参数值

javascript - 用php计算html文本字段的输入

parsing - 将十六进制字符串转换为十进制整数

java - 从 html 文件中获取信息

c++ - 将文本文件解析为对象时的错误处理

python - 在 python pandas 中合并两个不同大小的数据框

Python C，待定，从多个线程调用一个函数

python - Spyder 在运行任何脚本时报告无效别名

javascript - 如何修复文本以使其显示在一行上？