python - 通过 XPath 解析 HTML

标签 python html ruby xpath parsing

在 .Net 中,我发现了这个很棒的库,HtmlAgilityPack这使您可以使用 XPath 轻松解析格式不正确的 HTML。我已经在我的 .Net 站点中使用了几年,但我不得不为我的 Python、Ruby 和其他项目适应更痛苦的库。有人知道其他语言的类似库吗?

最佳答案

我很惊讶没有提到 lxml。它速度极快,可以在任何允许 CPython 库的环境中工作。

这里是you can parse HTML via XPATH using lxml .

>>> from lxml import etree
>>> doc = '<foo><bar></bar></foo>'
>>> tree = etree.HTML(doc)

>>> r = tree.xpath('/foo/bar')
>>> len(r)
1
>>> r[0].tag
'bar'

>>> r = tree.xpath('bar')
>>> r[0].tag
'bar'

关于python - 通过 XPath 解析 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/285990/

相关文章:

Python - 如何使用 Beautiful Soup 查找 ID 为 'value' 的所有跨度的文本?

python - scipy.optimize.fim错误: need more than 1 value to unpack

html - 如何修复 Bootstrap 4 中的箭头和 Logo slider ?

python - 从 Flash 客户端验证文件真实性而不泄露 key

html - React-bootstrap,Modal 出现在屏幕中途

jQuery 动画()

ruby - 比较运算符 `<=>` 和 bool 值

ruby - apt-get install overwrite ruby​​ on docker of ubuntu14.04

ruby-on-rails - .rb 文件中的 Ruby 类

python - 当我手动终止特定的 .py 脚本时,如何仍然使用函数?