我正在构建一个网络应用程序作为大学项目(使用 Python),我需要从网站读取内容。它可以是互联网上的任何网站。
一开始我想用BeautifulSoup, lxml之类的Screen Scrapers来读取内容(作者写的数据),但是我无法基于一种逻辑搜索内容,因为每个网站都是按照不同的标准开发的。
因此我想到了使用RSS/Atom(使用Universal Feed Parser),但我只能获取内容摘要!但我想要所有内容,而不仅仅是摘要。
那么,有没有一种方法可以让我们使用 BeautifulSoup、lxml 等库来读取网站内容?
或者我应该使用网站提供的 API。
如果它是博主的博客,我的工作就变得容易了,因为我可以使用 Google 数据 API,但问题是,我是否需要为同一工作的每个不同 API 编写代码?
什么是最好的解决方案?
最佳答案
使用网站的公共(public) API(如果存在)是迄今为止最好的解决方案。这正是 API 存在的原因,这就是网站管理员所说的“使用我们的内容”的方式。抓取可能有一天有效,第二天就失效了,这并不意味着网站管理员同意重复使用其内容。
关于python - 我应该使用 Screen Scrapers 还是 API 从网站读取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11061135/