hadoop - S3 和 EMRFS 有什么区别?

标签 hadoop amazon-s3 hdfs amazon-emr

我不明白 S3 和 EMRFS 之间的细微差别。我们应该将 EMRFS 视为允许从 Hadoop 应用程序写入/读取 S3 的库和 API 的集合,还是更多?和 this官方文档也没有帮助。

最佳答案

EMRFS 是一个实现 hadoops FileSystem api 的库。 EMRFS 使 S3 看起来像 hdfs 或本地文件系统。然后它被 hadoop 生态系统中的许多应用程序使用,例如 spark 和 hive。例如,这就是您将如何使用 EMRFS 从 spark 中的 S3 读取

val df = spark.read.parquet("S3://s3-bucket/path/to/folder/")
df.write.csv("s3://s3-bucket/path/to/output/")

关于hadoop - S3 和 EMRFS 有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57030286/

相关文章:

sql - Impala或Hive在其他SQL语法中是否具有类似于IN子句的内容?

scala - 使用 Scala 在 Spark 中创建映射值

c# - 将 Plupload 与 amazon s3 和 asp.net MVC C# 一起使用

hadoop - 是否可以写入远程 HDFS?

java - 无法连接到服务器 : localhost/127. 0.0.1 :9000: try once and fail. java.net.ConnectException:连接被拒绝

hadoop - ImportTsv命令在Hbase中不起作用

hadoop - Hadoop客户能否利用机架感知的优势?

ruby-on-rails - 如何将 "File.open"转换为 S3 兼容?

amazon-web-services - CodeDeploy找不到我的AWS Lambda函数

java - 使用 org.apache.hadoop.utilProgressable 接口(interface)