python - 我应该使用 Screen Scrapers 还是 API 从网站读取数据

标签 python html screen-scraping web-scraping

我正在构建一个网络应用程序作为大学项目(使用 Python),我需要从网站读取内容。它可以是互联网上的任何网站。

一开始我想用BeautifulSoup, lxml之类的Screen Scrapers来读取内容(作者写的数据),但是我无法基于一种逻辑搜索内容,因为每个网站都是按照不同的标准开发的。

因此我想到了使用RSS/Atom(使用Universal Feed Parser),但我只能获取内容摘要!但我想要所有内容,而不仅仅是摘要。

那么,有没有一种方法可以让我们使用 BeautifulSoup、lxml 等库来读取网站内容?

或者我应该使用网站提供的 API。

如果它是博主的博客,我的工作就变得容易了,因为我可以使用 Google 数据 API,但问题是,我是否需要为同一工作的每个不同 API 编写代码?

什么是最好的解决方案?

最佳答案

使用网站的公共(public) API(如果存在)是迄今为止最好的解决方案。这正是 API 存在的原因,这就是网站管理员所说的“使用我们的内容”的方式。抓取可能有一天有效,第二天就失效了,这并不意味着网站管理员同意重复使用其内容。

关于python - 我应该使用 Screen Scrapers 还是 API 从网站读取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11061135/

相关文章:

python - Pandas 查表

python - 在 conda 环境中启动 jupyter 时出现错误消息

javascript - Material UI 如何设置网格元素垂直跨3行?

html - 为什么 height=100% 不起作用?

javascript - 使用 jquery 或 css 仅在小屏幕上显示 div

python - 使用 BeautifulSoup 抓取表格

python - sparse_hash_map 对于特定数据非常慢

Python3编译的应用程序通过zip减少大小?

python - 我怎样才能刮掉这个框架?

ruby - Rails 3 中的屏幕抓取