hadoop - 是否可以更新已经写入S3的数据?

标签 hadoop amazon-s3 hdfs rdbms amazon-athena

感谢您调查我的问题。我很感激。
因此,我是该 Realm 的新手...但是我正在考虑用S3替换当前正在使用的Hadoop,但是在此之前,我想知道是否可以更新已经用S3编写的数据。
Hadoop作为HDFS,您只需写入一次,即可读取多次,这不允许我更新已经写入其中的数据。我有一个RDB,我曾考虑将其集成到Hadoop中,但由于需要及时更新此RDB而未能实现。
我听说过S3,您可以使用Athena或其他可能允许我进行UPDATE的中间件,这可能能够解决我先前在Hadoop中提到的问题。
非常感谢您通读,如果能分享您的知识,我们将不胜感激。谢谢 :)

最佳答案

您应该看看Amazon EMR:

Amazon EMR is a managed cluster platform that simplifies running big data frameworks, such as Apache Hadoop and Apache Spark, on AWS to process and analyze vast amounts of data. By using these frameworks and related open-source projects, such as Apache Hive and Apache Pig, you can process data for analytics purposes and business intelligence workloads. Additionally, you can use Amazon EMR to transform and move large amounts of data into and out of other AWS data stores and databases, such as Amazon S3 and Amazon DynamoDB.


它可以提供托管的Hadoop环境,并且可以直接使用Amazon S3中存储的数据。
Amazon S3是一种对象存储服务。与可以在编辑器中打开并更改一个字节的本地磁盘上的文件不同,Amazon S3中对对象的任何更新都需要替换整个对象。像Hadoop和Amazon Athena这样的系统通常通过在同一目录中添加其他文件来附加数据,但是更新或删除数据并不容易。为此,通常在进行更新时将数据复制到新表(CREATE TABLE AS)会更容易。
我看到的唯一允许Updates的系统是Delta Lake by Databricks

关于hadoop - 是否可以更新已经写入S3的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63773069/

相关文章:

python - Hadoop Streaming "comparator.options"未被尊重

hadoop - PIG 右移问题

amazon-web-services - Amazon EMR MapReduce 进度回滚?

python - 如何使用 Boto3 Python 在 S3 中创建 zipfile?

hadoop - 从一个集群迁移到另一个集群

javascript - 如何在 Web Worker 上填充 DOMParser 以供 AWS S3 SDK 上传使用?

amazon-s3 - S3 上的服务器端包含

mongodb - HDFS 与 GridFS : When to use which?

hadoop - Hadoop-无法找到或加载主类org.apache.hadoop.hdfs.qjournal.server.JournalNode

hadoop - 用于 Teradata 的 HDFS