friend 们好
我正在生成一个网络爬虫,我想知道一些关于它的事情,
1)我可以使用 Map reduce 从 NET 中获取数据吗
2)我可以将Fetched数据保存到HBase吗?
3) 我可以用 PHP 编写一个应用程序以从 HBase 获取数据吗?如果可以,你能给我一个代码片段吗?我如何使用 PHP 从 HBase 添加/查看/删除数据
最佳答案
对于你的问题,是的,都是可以的。您如何处理它取决于您想要实现的目标。
1) 您的主控件需要对任务进行分区。您可能会维护某种要爬网的地址列表,可能会运行每次读入列表的顺序 mapreduce 任务,在可以进行爬网的映射器之间拆分列表,并直接写入 hbase 或其他中介。他们也可能会输出生成的 url 以进行下一步爬行,而这些 url 又将在 reduce 阶段被过滤为唯一值,reduce 输出下一步要爬行的事物列表。您需要维护最近抓取内容的列表并将其过滤掉,但这并不是 MR/Hbase 所特有的。
2) 您可以使用 table output format将输出发送到 hbase。您也可以只与 HTable 建立 HBase 连接并直接写入您的映射器。
3) 正如 TheDeveloper 所说,是的,节俭。他的链接很好。
关于java - 在 Java 中使用 PHP 和 Mapreduce 从 HBase 添加/查看/删除数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4175551/