hadoop - EMR 上的用例 HBase

标签 hadoop amazon-web-services hbase storage emr

我阅读了 AWS 上的文档,但仍有一点不清楚。

S3 是 EMR 集群的主存储吗?还是数据在 EC2 中而 S3 只是一个副本?

在文档中:

  • “HBase on Amazon EMR 提供了 您的 HBase 数据直接备份到 Amazon Simple Storage Service (Amazon S3) 的能力”
  • “在 Amazon EMR 上运行的 Hadoop 集群使用 EC2 实例作为主节点和从节点的虚拟 Linux 服务器, Amazon S3 用于批量存储输入...
  • “提供启动新集群的能力, 使用来自先前 HBase 备份的数据填充

  • 我的用例:使用 HBASE 存储 TB 的数据。通过启动 emr 集群每月只更新我的表三到两次。表存储在 S3 上。

    最佳答案

    从 EMR 5.2.0 开始,您可以运行 HBase 1.3.0 及更高版本 directly on AWS S3 .

    该设置替换了 hfds:// hbase-site.xml 中的协议(protocol)文件:

    "hbase.rootdir": "s3://my-bucket/hbase"
    

    无需更改 HBase 客户端。该配置通过消除管理 HDFS NameNode 和 DataNodes 的需要来简化操作。

    关于hadoop - EMR 上的用例 HBase,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30801046/

    相关文章:

    scala - spark Vectors 和 scala immutable Vector 之间的区别?

    node.js - pm2 没有在弹性 beantalk 上启动服务器

    amazon-web-services - 从 Visual Studio Toolkit 2012 重新部署时,aws cloudformation 堆栈没有响应

    python - 在 AWS 实例上的 Docker 容器中使用 PyCharm 进行开发

    hadoop - 将rbms映射到dfs

    java - Hive UA解析器UDF提供IOException

    java - 使用 FileInputFormat.addInputPaths 递归添加 HDFS 路径

    带有未安装在数据节点上的导入包的 Python Hadoop 流式传输

    java - Hazelcast Map 重启后 key 长度不同

    node.js - NodeJS 无法捕获的异常