我找到了用于 SAX 的 HTMLParser
和用于 XML 的 xml.minidom
。我有一个格式很好的 HTML,所以我不需要太强大的解析器 - 有什么建议吗?
最佳答案
我会推荐 lxml .我喜欢 BeautifulSoup,但通常存在维护问题以及与更高版本的兼容性问题。我很高兴使用 lxml。
稍后:最好的建议是使用 lxml、html5lib 或 BeautifulSoup 3.0.8。 BeautifulSoup 3.1.x 是为 python 3.x 设计的,已知在较早的 python 版本中存在问题,as noted on the BeautifulSoup website .
Ian Bicking 有一个 good article关于使用 lxml。
ElementTree 是进一步的推荐,但我从未使用过。
2012-01-18:有人过来并决定对我和 Bartosz 投反对票,因为我们推荐了易于获得但不属于 Python 发行版的 Python 包。所以对于高度字面化的 StackOverflowers:“你可以使用 xml.dom.minidom,但没有人会推荐它而不是替代品。”
关于python - 是否有内置包将 html 解析为 dom?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2782097/