python beautifulsoup : lxml html. 解析器

标签 python beautifulsoup lxml html-parser

我必须使用 beautifulsoup,但我不知道我必须使用哪个解析器。 我在 lxml 和 html.parser 之间犹豫不决,或者为什么不两者兼而有之。 如何知道网页是否符合 lxml? 如何知道网页是否兼容 html 解析器? 非常感谢

最佳答案

没有 Elixir 。 Different HTML parsers behave differently您应该选择适合您的特定页面的那个。在这种情况下工作基本上意味着您可以获得所需的数据。

lxml 解析器通常更快,html5lib 是最宽松的解析器 - 如果您有一个损坏的或格式不正确的 HTML,这种差异将是相关的解析。 html.parser 是内置的,如果这是一个问题,可以帮助避免额外的依赖。这是一个 related table这突出了差异。

关于python beautifulsoup : lxml html. 解析器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37933399/

相关文章:

python - Django 导入错误,URLS 和 ROOT_URLCONF 混淆

python - Ideone 是否支持 Python 命令行参数?

python - 为什么 BeautifulSoup 会在第二次解析时起作用,而不是第一次解析

python - 如何打印对象化元素?

python - Python 中的星号

python - 使用 BeautifulSoup 获取具有此属性的最近的前一个元素

python - 通过在下拉列表中导航不同的选项来抓取表格

python - 使用 Python lxml 删除处理指令

python - 使用 lxml 解析 html

python - 从异常导入 PendingDeprecationWarning ModuleNotFoundError : No module named 'exceptions'