hadoop - 如何将 apache Nutch 2.x 连接到远程 HBase 集群?

标签 hadoop hbase apache-zookeeper nutch nutch2

我有两台机器。一台机器伪分布式运行HBase 0.92.2,另一台机器使用Nutch 2.x爬虫。如何配置这两台机器,使一台 HBase-0.92.2 作为后端存储,另一台 Nutch-2.x 作为爬虫?

最佳答案

我终于做到了。我很容易做到。 我在这里分享我的经验。也许它可以帮助某人。

1-修改hbase-site.xml的配置文件为伪分布式模式。

2- 最重要的事情:在 hbase 机器上,像这样用你的真实网络 ip 替换/etc/hosts 中的 localhost ip

10.11.22.189 主机本地主机

hbase机器的ip = 10.11.22.189 (注意:如果你不更改你的hbase机器的localhost ip,远程nutch爬虫将无法连接到它)

4- 将 hbase-site.xml 复制/符号链接(symbolic link)到 $NUTCH_HOME/conf

5- 启动你的爬虫并查看它的工作情况

关于hadoop - 如何将 apache Nutch 2.x 连接到远程 HBase 集群?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22678932/

相关文章:

Hadoop MR2 : Records with same key are processed independently

hadoop - 为什么我的 hadoop 命令不起作用?

hdfs - HBase:Minor 和 Major Compaction 的区别

hadoop - 使用 zookeeper 解析 hive 连接 url

apache-kafka - 使用 __consumer_offsets 杀死节点会导致消费者没有消息消费

sql - 在 Hive 中如何获取从特定字符开始的结果

Scala Spark 循环没有任何错误,但不产生输出

java - HBase & JDBC 连接

performance - HBase:为什么在达到 BlockCache 的最大大小之前会有被逐出的 block ?

hadoop - 加载文件时如何平衡HBase的负载?