hadoop - HBase 伪分布式还是全分布式模式?

标签 hadoop hbase hdfs nutch

我在开发环境中有一台linux(ubuntu)服务器,我也计划在生产环境中使用一台服务器。

我有从 Nutch 2.2.1 生成的爬网数据,我想将其存储在 HBase 0.90.6 中。因为,我不打算使用多台机器,(我只有一台服务器)在我的情况下,哪种 HBase 模式最适合生产环境 - 伪还是完全分布式?

最佳答案

伪分布式模式会更好,因为在独立模式下使用本地文件系统。这意味着您无法利用 HDFS+MR 组合提供的并行性。

关于hadoop - HBase 伪分布式还是全分布式模式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19199089/

相关文章:

hadoop - spark 会自动缓存 rdds 吗?

maven - jar文件的目的在汤姆·怀特(Tom White),第四版的 “Hadoop”书中提到过吗?

java - 如何删除Hbase表中所有行的列

mysql - 如何在hive中的select语句中编写带有附加列的子查询,该附加列的单个值是通过某些行的总和获得的

hadoop - 在 HDFS 中本地化 HFile block

hadoop - Hive - 使用不包括行终止符的文本文件创建外部表

HBase 在 Java 中复制一行(重命名行键)

java - 如何使用rowkey的特定部分扫描HBase?

mongodb - 将外部数据导入 hdfs : is edge node a bottle neck?

python - 如何使用python检查HDFS中是否存在文件