python - 是否有内置包将 html 解析为 dom?

标签 python html dom parsing

我找到了用于 SAX 的 HTMLParser 和用于 XML 的 xml.minidom。我有一个格式很好的 HTML,所以我不需要太强大的解析器 - 有什么建议吗?

最佳答案

我会推荐 lxml .我喜欢 BeautifulSoup,但通常存在维护问题以及与更高版本的兼容性问题。我很高兴使用 lxml。


稍后:最好的建议是使用 lxml、html5lib 或 BeautifulSoup 3.0.8。 BeautifulSoup 3.1.x 是为 python 3.x 设计的,已知在较早的 python 版本中存在问题,as noted on the BeautifulSoup website .

Ian Bicking 有一个 good article关于使用 lxml。

ElementTree 是进一步的推荐,但我从未使用过。


2012-01-18:有人过来并决定对我和 Bartosz 投反对票,因为我们推荐了易于获得但不属于 Python 发行版的 Python 包。所以对于高度字面化的 StackOverflowers:“你可以使用 xml.dom.minidom,但没有人会推荐它而不是替代品。”

关于python - 是否有内置包将 html 解析为 dom?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2782097/

相关文章:

javascript - 通过单击复选框将一个文本框数据复制到另一个文本框中

javascript - 努力根据特定列的值隐藏行(理论上应该很容易......)

python - 解决 scikit-learn One Vs Rest 随机森林的缓慢解封问题

Python - 使用 alpha channel 在子图中使用 matplotlib 叠加 2 个图

python - 创建 ModelView 时如何解决 Flask-admin 扩展中的此错误?

带有 Google App Engine 的 iPhone 应用程序

javascript - 如何隐藏文本内容而不是子元素?

html - 伪类 :active, Firefox 中的错误?

Javascript HTMLDOM appendChild 导致 DOM 异常 8

php - DOMNode 到 PHP 中的 DOMElement