hadoop - Hive的每个Insert查询都会在Hdfs文件系统中创建一个新文件

标签 hadoop hive hdfs

在每个插入查询中,在Hdfs文件系统中都会使用000000_0_copy *创建一个文件。

这是hive和Hdfs的默认行为吗?

如果有的话,是否有压实的概念,那么共作用如何工作?

最佳答案

HDFS是仅附加文件系统,意味着修改(UPDATE / DELETE语句)已写入文件的任何部分,必须重写整个文件并替换旧文件,或者编写新文件以插入甚至单个记录。

压缩不是自动过程。您需要编写自己的代码来查询一个表,然后插入另一种格式,例如 Parquet /兽人

关于hadoop - Hive的每个Insert查询都会在Hdfs文件系统中创建一个新文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46618953/

相关文章:

hadoop - 在理解 Hbase 读取路径方面需要帮助

hadoop - Hive:如何决定哪个值进入哪个桶?

sql - 使用 MAX 的子句不能像我在 HIVE 查询中预期的那样工作

python - 如何使用python设置hdfs目录配额

java - 使用 camel 从 FTP 动态重命名文件

hadoop - 一种为单节点 Hadoop 禁用 SSH 的方法?

hadoop - Apache Hadoop Windows 10 - Datanode、Resource Manager 和 Yarn 在启动时立即关闭

hadoop - FALSE或NULL在Hive中不起作用

hadoop - 在现有的故事中添加新列

hadoop - 连续摄取的 HDFS 文件压缩