我有两台机器。一台机器伪分布式运行HBase 0.92.2,另一台机器使用Nutch 2.x爬虫。如何配置这两台机器,使一台 HBase-0.92.2 作为后端存储,另一台 Nutch-2.x 作为爬虫?
最佳答案
我终于做到了。我很容易做到。 我在这里分享我的经验。也许它可以帮助某人。
1-修改hbase-site.xml的配置文件为伪分布式模式。
2- 最重要的事情:在 hbase 机器上,像这样用你的真实网络 ip 替换/etc/hosts 中的 localhost ip
10.11.22.189 主机本地主机
hbase机器的ip = 10.11.22.189 (注意:如果你不更改你的hbase机器的localhost ip,远程nutch爬虫将无法连接到它)
4- 将 hbase-site.xml 复制/符号链接(symbolic link)到 $NUTCH_HOME/conf
5- 启动你的爬虫并查看它的工作情况
关于hadoop - 如何将 apache Nutch 2.x 连接到远程 HBase 集群?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22678932/