java - 在 Java 中使用 PHP 和 Mapreduce 从 HBase 添加/查看/删除数据?

标签 java php mapreduce hbase

friend 们好
我正在生成一个网络爬虫,我想知道一些关于它的事情,
1)我可以使用 Map reduce 从 NET 中获取数据吗
2)我可以将Fetched数据保存到HBase吗?
3) 我可以用 PHP 编写一个应用程序以从 HBase 获取数据吗?如果可以,你能给我一个代码片段吗?我如何使用 PHP 从 HBase 添加/查看/删除数据

最佳答案

对于你的问题,是的,都是可以的。您如何处理它取决于您想要实现的目标。

1) 您的主控件需要对任务进行分区。您可能会维护某种要爬网的地址列表,可能会运行每次读入列表的顺序 mapreduce 任务,在可以进行爬网的映射器之间拆分列表,并直接写入 hbase 或其他中介。他们也可能会输出生成的 url 以进行下一步爬行,而这些 url 又将在 reduce 阶段被过滤为唯一值,reduce 输出下一步要爬行的事物列表。您需要维护最近抓取内容的列表并将其过滤掉,但这并不是 MR/Hbase 所特有的。

2) 您可以使用 table output format将输出发送到 hbase。您也可以只与 HTable 建立 HBase 连接并直接写入您的映射器。

3) 正如 TheDeveloper 所说,是的,节俭。他的链接很好。

关于java - 在 Java 中使用 PHP 和 Mapreduce 从 HBase 添加/查看/删除数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4175551/

相关文章:

java - 如何在没有 Java Web Start 的情况下将 Java 控制台输出通过管道传输到文件?

javascript - Qn on jquery 插件(.scroll 分页)

php - 从原始 mysql 文件创建 sql 文件

java - 错误 : <identifier> expected in java hadoop

hadoop - 了解 Hive MR 输出

java - 当您无法控制第二次读取 ServletInputStream 的代码时,如何多次读取它

java - 为什么Java源码中有些ASCII字符不能以 '\uXXXX'的形式表示?

hadoop - hadoop中的 block 大小

java - 在 IDEA 中,在 Maven 中添加依赖项后,我的工件总是显示库需要为 'fixed'

php - 密码重置后端功能