hadoop - 如何将 apache Nutch 2.x 连接到远程 HBase 集群？

我有两台机器。一台机器伪分布式运行HBase 0.92.2，另一台机器使用Nutch 2.x爬虫。如何配置这两台机器，使一台 HBase-0.92.2 作为后端存储，另一台 Nutch-2.x 作为爬虫？

最佳答案

我终于做到了。我很容易做到。我在这里分享我的经验。也许它可以帮助某人。

1-修改hbase-site.xml的配置文件为伪分布式模式。

2- 最重要的事情:在 hbase 机器上，像这样用你的真实网络 ip 替换/etc/hosts 中的 localhost ip

10.11.22.189 主机本地主机

hbase机器的ip = 10.11.22.189 (注意:如果你不更改你的hbase机器的localhost ip，远程nutch爬虫将无法连接到它)

4- 将 hbase-site.xml 复制/符号链接(symbolic link)到 $NUTCH_HOME/conf

5- 启动你的爬虫并查看它的工作情况

关于hadoop - 如何将 apache Nutch 2.x 连接到远程 HBase 集群？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22678932/