hadoop - 巨大的文件如何从HDFS外部生成？

我是一个尝试学习Hadoop和MapReduce的完全新手。我了解HDFS可以存储一个巨大的文件，例如通过将其分成可管理大小的块来达到1 PB。我不明白的是，由于无法将如此大的文件存储在HDFS之外的HDD上，因此它可能从何处产生和传输？

最佳答案

它通常不是来自单个HDD，而是通常来自安装在服务器/群集上的RAID或JBOD磁盘池，通常来自一个或多个数据库。

而且，它不必是“一个文件”，它可以是许多文件，它们共同构成数据库表，文档，图片，mp3，视频等。

关于hadoop - 巨大的文件如何从HDFS外部生成？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54088959/

相关文章：

json - 如何加载在HIVE中压缩的json snappy