hadoop - 如何将 Amazon Glacier/S3 与 hadoop map reduce/spark 结合使用?

标签 hadoop apache-spark amazon-s3 emr amazon-glacier

我需要使用 Hadoop/EMR 处理存储在 Amazon S3 和 Amazon Glacier 中的数据,并将输出数据保存在 RDBMS 中,例如。垂直

我完全是大数据的菜鸟。我只看过一些关于 map reduce 和 sparx 的在线类(class)和 ppts。并创建了一些虚拟 map reduce 代码用于学习目的。

到目前为止,我只有一些命令可以让我将数据从 S3 导入 Amazon EMR 中的 HDFC,并在处理后将它们存储在 HDFS 文件中。

所以这是我的问题:

  • 在执行 map reduce 之前是否真的必须先将数据从 S3 同步到 HDFC,或者是否有直接使用 S3 的方法。`

  • 如何让 hadoop 访问 Amazon Glacier 数据`

  • 最后是如何将输出存储到数据库。`

欢迎任何建议/引用。

最佳答案

EMR 集群能够读取/写入 S3,因此无需将数据复制到集群。 S3 具有 Hadoop 文件系统的实现,因此它在很大程度上可以被视为与 HDFS 相同。

据我所知,您的 MR/Spark 作业无法直接从 Glacier 访问数据,必须首先从 Glacier 下载数据,这本身就是一个漫长的过程。

查看 Sqoop用于在 HDFS 和 DB 之间泵送数据

关于hadoop - 如何将 Amazon Glacier/S3 与 hadoop map reduce/spark 结合使用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37810591/

相关文章:

hadoop - FileNotFoundException但文件存在

shell - 如何在 OOZIE 决策节点中使用逻辑运算符?

hadoop - 孤立的 Yarn 子进程会发生什么?

apache-spark - 使用 "contains"查询用户定义类型 (UDT) 列表

amazon-s3 - Gitlab综合: Delete backup from Amazon S3

python - 使用 NLTK 的 Heroku Django 应用程序 : How do I use the NLTK corpora in the app?

python - PySpark 加载 CSV AttributeError : 'RDD' object has no attribute '_get_object_id'

scala - 在 Spark Scala 中使用 map() 重新排序键值对

java - 从 apache Spark 运行 java 程序时出现 ClassNotFound 异常

amazon-web-services - 如何排查 'Cannot Connect to Proxy' 错误 - AWS S3