python - 通过 XPath 解析 HTML

已结束。此问题不符合 Stack Overflow guidelines .它目前不接受答案。

我们不允许提出有关书籍、工具、软件库等方面的建议的问题。您可以编辑问题，以便用事实和引用来回答它。

关闭去年。

在 .Net 中，我发现了这个很棒的库，HtmlAgilityPack这使您可以使用 XPath 轻松解析格式不正确的 HTML。我已经在我的 .Net 站点中使用了几年，但我不得不为我的 Python、Ruby 和其他项目适应更痛苦的库。有人知道其他语言的类似库吗？

最佳答案

我很惊讶没有提到 lxml。它速度极快，可以在任何允许 CPython 库的环境中工作。

这里是you can parse HTML via XPATH using lxml .

>>> from lxml import etree
>>> doc = '<foo><bar></bar></foo>'
>>> tree = etree.HTML(doc)

>>> r = tree.xpath('/foo/bar')
>>> len(r)
1
>>> r[0].tag
'bar'

>>> r = tree.xpath('bar')
>>> r[0].tag
'bar'

关于python - 通过 XPath 解析 HTML，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/285990/

上一篇：python - 如何在 Python 中进行多次导入？

下一篇：python - 如何使用 pyodbc 加速批量插入 MS SQL Server

python - scipy.optimize.fim错误: need more than 1 value to unpack

html - 如何修复 Bootstrap 4 中的箭头和 Logo slider ？

python - 从 Flash 客户端验证文件真实性而不泄露 key

html - React-bootstrap，Modal 出现在屏幕中途

jQuery 动画()

ruby - 比较运算符 `<=>` 和 bool 值

ruby - apt-get install overwrite ruby on docker of ubuntu14.04

ruby-on-rails - .rb 文件中的 Ruby 类

python - 当我手动终止特定的 .py 脚本时，如何仍然使用函数？