我阅读了 AWS 上的文档,但仍有一点不清楚。
S3 是 EMR 集群的主存储吗?还是数据在 EC2 中而 S3 只是一个副本?
在文档中:
我的用例:使用 HBASE 存储 TB 的数据。通过启动 emr 集群每月只更新我的表三到两次。表存储在 S3 上。
最佳答案
从 EMR 5.2.0 开始,您可以运行 HBase 1.3.0 及更高版本 directly on AWS S3 .
该设置替换了 hfds://
hbase-site.xml
中的协议(protocol)文件:
"hbase.rootdir": "s3://my-bucket/hbase"
无需更改 HBase 客户端。该配置通过消除管理 HDFS NameNode 和 DataNodes 的需要来简化操作。
关于hadoop - EMR 上的用例 HBase,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30801046/