amazon-ec2 - 是否可以从多个 Hadoop 集群访问 AWS EFS

标签 amazon-ec2 amazon-efs

我可以理解EFS可以挂载到多个EC2实例。

是否可以从多个 Hadoop 集群连接到 AWS EFS?

或者它是否附加到特定集群?

我们可以使用 API 连接到 Hadoop 集群外部的 EFS 吗?

最佳答案

您正在为 Hadoop 集群使用 Cloudera 发行版,因此您可以根据需要进行配置。

作为比较,Amazon EMR(AWS 托管 Hadoop 服务)的用户通常从两种类型的存储中进行选择:

  • 实例存储:这是直接连接的磁盘存储,因此速度非常快。某些实例类型(例如 m3、d2)提供大磁盘存储,这非常适合 HDFS。其他实例类型提供非常快的 SSD 存储,但通常尺寸较小。请注意,当 EMR 集群终止时,实例存储的内容将会丢失。
  • EBS 卷:这些是网络连接磁盘,可提供更大的存储空间(每个卷最多 16TB)。同样,当 EMR 集群终止时,内容也会丢失。 EBS 卷和实例存储也可以一起使用。

对于 EMR(同样,这不是您的情况),用户将输入和输出数据保存在 Amazon S3 中作为持久数据存储。这样,当集群终止时数据不会丢失。这样做的好处是,可以在不使用集群时将其关闭(从而节省资金),并且在需要更多处理能力时可以启动额外的集群。这在传统的本地设置中是不可能的,因为集群永久保留且无法扩展或缩小。

那么,回到您的 Cloudera 集群...您可能会使用 HDFS 进行存储,在这种情况下,您需要附加磁盘存储。您还可以选择使用 S3 来存储数据,这比磁盘存储更便宜。

是的,您可以通过 NTFS 附加Amazon EFS 卷,但 EFS 通常用于在 EC2 实例之间共享磁盘,这不是 HDFS 的运行方式(它假设本地附加磁盘具有分布式共享发生在 NodeManager 级别)。

我建议您研究一下是否可以使用 Amazon EMR,而不是部署自己的 Hadoop 集群,因为它具有扩展、 transient 集群、自动部署和定期升级的优势。如果您必须使用Cloudera,您将负责自行管理和维护集群。

关于amazon-ec2 - 是否可以从多个 Hadoop 集群访问 AWS EFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49623091/

相关文章:

amazon-web-services - AWS ELB 规则中监听器优先级的默认值

amazon-web-services - 为什么我无法在对等互连后从另一个 VPC 中的 EC2 实例连接 AWS RDS 实例

amazon-web-services - 如何在 EFS 上创建文件夹?

mysql - 无法从 EC2 实例连接到 RDS 实例

amazon-web-services - Logstash + kibana + elasticsearch 网络问题

ssl - 通过 https 将子域指向 EC2 实例

git - 如何将 AWS S3(最终在 AWS EFS 上)上的更改同步回 Github 存储库?

ruby-on-rails - 将目录导出为 .zip 文件的最佳 AWS 存储选项?

amazon-web-services - 是否可以使用 AWS EFS 访问点在 EKS 中挂载 kubernetes 持久卷?

amazon-web-services - 将efs音量添加到ecs fargate