google-app-engine - 为谷歌应用引擎上的选定站点运行网络爬虫?

标签 google-app-engine web-crawler nutch

我需要编写一个爬虫来仅从几个预先选择的网站中提取一些信息。

我知道这是一项直接的工作,但我正在考虑使用谷歌应用引擎来完成这项工作。

也许我可以尝试使用 Nutch 为我做这件事。

这种完成方式的可行性如何?

1) 在谷歌基础设施上托管一个爬虫 2) Nutch + App Engine- 有可能吗?

最佳答案

只是浏览了 nutch docs ,我看到评论如“[t]his is the second release of Nutch entirely based on the underlying Hadoop platform” 这让我怀疑这不会在 App Engine 上运行. App Engine 应用程序在 Python 中运行或 Java沙盒。

也就是说,您应该能够在 App Egnine 上组合一个基本的爬虫。我的基本实现可能涉及启动 tasks使用 urlfetch抓取页面,然后,可选地,插入额外的任务来处理文档链接到的链接。您可以使用 scheduled tasks 开始爬网.

关于google-app-engine - 为谷歌应用引擎上的选定站点运行网络爬虫?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4364950/

相关文章:

python - 如果我将实体两次放入 Google App Engine 数据存储区会怎样?

javascript - 获取已登录 Google 用户的用户个人资料图片/徽章

html - 您如何将整个网站存档以供离线查看?

json - 使用 jsoup 抓取站点并在 golang 中生成 json

nutch - 如何重新爬行坚果

python - 需要帮助找出此 UnicodeDecodeError 的解决方案

php - 谷歌应用引擎 phpBB

html - 在 OCaml 网络爬虫中跟踪 HTTP 重定向

java - 如何从nutch访问抓取的内容以进行内容分类

hadoop - Nutch : org. apache.hadoop.mapreduce.lib.input.InvalidInputException: 输入路径不存在