hadoop - 巨大的文件如何从HDFS外部生成?

标签 hadoop mapreduce hdfs

我是一个尝试学习Hadoop和MapReduce的完全新手。我了解HDFS可以存储一个巨大的文件,例如通过将其分成可管理大小的块来达到1 PB。我不明白的是,由于无法将如此大的文件存储在HDFS之外的HDD上,因此它可能从何处产生和传输?

最佳答案

它通常不是来自单个HDD,而是通常来自安装在服务器/群集上的RAID或JBOD磁盘池,通常来自一个或多个数据库。

而且,它不必是“一个文件”,它可以是许多文件,它们共同构成数据库表,文档,图片,mp3,视频等。

关于hadoop - 巨大的文件如何从HDFS外部生成?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54088959/

相关文章:

json - 如何加载在HIVE中压缩的json snappy

sql - 使用HiveQL(Hadoop)在Hive中联接两个表

hadoop - 如何让配置单元同时运行 mapreduce 作业?

java - 面临合并洗牌和排序 Mapreduce 的问题

hadoop - 如何配置 Tensorflow Serving 以提供来自 HDFS 的模型?

hadoop MultipleOutputs 到绝对路径,但其他尝试已创建文件

hadoop - Hive 与 HBase 相比如何?

Hadoop 0.20.2 reducer 在迭代值时抛出 ArrayIndexOutOfBoundsException

java - 我正在尝试在 hdfs 中格式化名称节点,但显示 : permission denied

hadoop - 输入拆分的数量等于映射器的数量?