python - 我应该使用 Screen Scrapers 还是 API 从网站读取数据

我正在构建一个网络应用程序作为大学项目(使用 Python)，我需要从网站读取内容。它可以是互联网上的任何网站。

一开始我想用BeautifulSoup, lxml之类的Screen Scrapers来读取内容(作者写的数据)，但是我无法基于一种逻辑搜索内容，因为每个网站都是按照不同的标准开发的。

因此我想到了使用RSS/Atom(使用Universal Feed Parser)，但我只能获取内容摘要!但我想要所有内容，而不仅仅是摘要。

那么，有没有一种方法可以让我们使用 BeautifulSoup、lxml 等库来读取网站内容？

或者我应该使用网站提供的 API。

如果它是博主的博客，我的工作就变得容易了，因为我可以使用 Google 数据 API，但问题是，我是否需要为同一工作的每个不同 API 编写代码？

什么是最好的解决方案？

最佳答案

使用网站的公共(public) API(如果存在)是迄今为止最好的解决方案。这正是 API 存在的原因，这就是网站管理员所说的“使用我们的内容”的方式。抓取可能有一天有效，第二天就失效了，这并不意味着网站管理员同意重复使用其内容。

关于python - 我应该使用 Screen Scrapers 还是 API 从网站读取数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11061135/

相关文章：

python - Pandas 查表