azure - 对于 Hadoop,选择哪种数据存储:Amazon S3 还是 Azure Blob 存储?

标签 azure hadoop amazon-web-services emr

我正在开发一个 Hadoop 项目,并在本地集群中生成大量数据。不久之后,我将使用基于云的 Hadoop 解决方案,因为我的 Hadoop 集群与实际工作负载相比非常小,但是我现在无法选择将使用哪一个,即基于 Windows Azure、EMR 或其他解决方案。我在本地生成大量数据,并希望将这些数据存储到一些基于云的存储中,因为我稍后很快就会将这些数据与 Hadoop 一起使用。

我正在寻找建议,以根据某人的经验来决定选择哪个云存储。提前致谢。

最佳答案

首先,这是一个很好的问题。让我们尝试了解“Hadoop 中的数据是如何处理的”:

  1. 在 Hadoop 中,所有数据都在 Hadoop 集群上处理,这意味着当您处理任何数据时,数据都会从其源复制到 HDFS,HDFS 是 Hadoop 的重要组件。
  2. 仅在运行 Map/Reduce 作业以获取结果后才将数据复制到 HDFS。
  3. 这意味着您的数据源是什么以及在哪里并不重要(Amazon S3、Azure Blob、SQL Azure、SQL Server、本地源等),您必须将数据从源移动/传输/复制到 HDFS ,在 Hadoop 的限制内。
  4. 数据在 Hadoop 集群中处理后,结果将存储在您在作业中配置的位置。输出数据源可以是 HDFS 或可从 Hadoop 集群访问的外部位置

  5. 将数据复制到 HDFS 后,您可以将其保留在一个 HDFS 上,只要您愿意,但您必须付出使用 Hadoop 集群的代价。

  6. 在某些情况下,当您在某个时间间隔内运行 Hadoop 作业并且可以更快地完成数据移动/复制时,最好有一个策略来 1) 获取 Hadoop 集群 2) 复制数据 3) 运行作业 4 ) 释放集群。

因此,根据上述详细信息,当您为 Hadoop 集群选择云中的数据源时,您必须考虑以下因素:

  1. 如果您有大量数据(这在 Hadoop 集群中很常见)需要处理,请考虑不同的数据源以及将数据从这些数据源复制/移动到 HDFS 所需的时间,因为这将是您的第一步。

  2. 您需要选择网络延迟最低的数据源,以便您能够尽快传入和传出数据。

  3. 您还需要考虑如何将大量数据从当前位置移动到任何云存储。最好的选择是拥有一个可以发送数据磁盘(HDD/磁带等)的存储,因为上传多个 TB 数据将花费大量时间。

  4. Amazon EMR(已可用)、Windows Azure(CTP 中的 HadoopOnAzure)和 Google(BigQuery 预览版,基于 Google Dremel)在云中提供预配置的 Hadoop 集群,以便您可以选择要运行的位置如果您有 Hadoop 工作,那么您可以考虑云存储。

  5. 即使您选择一种云数据存储并因为想要在云中使用其他 Hadoop 集群而决定迁移到其他存储,您也确实可以传输数据,但请考虑可用的时间和数据传输支持。

  6. 例如,通过 HadooponAzure,您可以连接各种数据源,即 Amazon S3、Azure Blob 存储、SQL Server 和 SQL Azure 等,因此各种数据源对于任何云 Hadoop 集群都是最佳选择。

关于azure - 对于 Hadoop,选择哪种数据存储:Amazon S3 还是 Azure Blob 存储?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10490463/

相关文章:

azure - 如何使用 Azure Resource Graph Explorer 查询获取每个订阅的资源计数列表?

hadoop - Sqoop 默认创建 6 个映射器?

hadoop - sqoop导入显示错误

hadoop - 如何使用自由格式查询选项执行Sqoop导入验证

apache - 如何在 AWS 弹性负载均衡器上实现 HTTP 严格传输安全 (HSTS)?

javascript - AMAZON SNS 使用 Node js 将通知有效负载推送到 Android 手机

Azure Devops 运行结果步骤和运行摘要详细信息附件 API

azure - Visual Studio 2013 上的错误 109 WAT080 : Failed to locate the Windows Azure SDK 2. 1

azure - 无法登录Azure移动应用程序(API服务)

amazon-web-services - 模型验证失败 (#/EventSourceArn : failed validation constraint for keyword [pattern])