hadoop - EMR 上的用例 HBase

我阅读了 AWS 上的文档，但仍有一点不清楚。

S3 是 EMR 集群的主存储吗？还是数据在 EC2 中而 S3 只是一个副本？

在文档中:

“HBase on Amazon EMR 提供了将您的 HBase 数据直接备份到 Amazon Simple Storage Service (Amazon S3) 的能力”

“在 Amazon EMR 上运行的 Hadoop 集群使用 EC2 实例作为主节点和从节点的虚拟 Linux 服务器， Amazon S3 用于批量存储输入... ”

“提供启动新集群的能力， 使用来自先前 HBase 备份的数据填充 ”

我的用例:使用 HBASE 存储 TB 的数据。通过启动 emr 集群每月只更新我的表三到两次。表存储在 S3 上。

最佳答案

从 EMR 5.2.0 开始，您可以运行 HBase 1.3.0 及更高版本 directly on AWS S3 .

该设置替换了 hfds:// hbase-site.xml 中的协议(protocol)文件:

"hbase.rootdir": "s3://my-bucket/hbase"

无需更改 HBase 客户端。该配置通过消除管理 HDFS NameNode 和 DataNodes 的需要来简化操作。

关于hadoop - EMR 上的用例 HBase，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30801046/