python - 使用 BeautifulSoup 与 XPath 进行 Python Web 抓取的优缺点

标签 python xpath web-scraping beautifulsoup

<分区>

我最近一直在学习如何使用 Python 中的 BeautifulSoup 进行网络抓取,但今天早些时候有人建议我考虑改用 XPath 表达式。

XPath 和 BeautifulSoup 的工作方式有何不同?

最佳答案

我用过 BeautifulSoup 和 lxml,根据经​​验倾向于使用 lxml。参见 performance comparison here .使用 BeautifulSoup 时要注意的一件事是解析器的显式选择。为您选择的默认解析器可能会在没有警告的情况下错误地解析结果,这可能会导致噩梦 - my experience here .

话虽如此,我发现编写 bs4 片段通常比相应的 lxml 更容易。

关于python - 使用 BeautifulSoup 与 XPath 进行 Python Web 抓取的优缺点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32911933/

相关文章:

python - C++ Qt : QProcess run Python script path specifying Python version

Python 在引号之间的文件中查找文本

java - 如何在 Selenium 中映射 XPath?

python - 如何使用python从网络浏览器获取内容?

javascript - 如何使用casperJS获取新页面的URL

python - python 中的 random.choices()

python - 为什么我在 matplotlib 中的绘图没有显示轴

xpath - 获取 href 属性

python - 使用 Python Selenium 检查 HTML 元素是否存在

python - 如何使用 Python 从指向子 URL 的 URL 下载 pdf 文件