hadoop - Hadoop文件大小说明

标签 hadoop

我正在澄清有关使用Hadoop处理大约200万个大文件的问题。我有由200万行组成的文件数据，我想将每行分割为一个文件，将其复制到Hadoop File System中，并使用Mahout执行术语频率的计算。 Mahout以分布方式使用映射减少计算。但这要说，如果我有一个包含200万行的文件，我想将每一行作为文档来计算项频。我最终将有一个目录，其中将有200万个文档，每个文档由一行组成。这会为n个文件创建n个图吗，这里将为该过程创建200万张图。这需要大量时间进行计算。有没有其他替代方法可以表示文档以便进行更快的计算。

最佳答案

hadoop有200万个文件。不仅如此，运行200万个任务将需要大约200万秒的开销，这意味着几天的小型集群工作。
我认为问题是算法性质的-如何将您的计算映射到映射以减少映射器数量的方式减少范式。请就您需要的任务写几行，我可能会建议算法。

关于hadoop - Hadoop文件大小说明，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10314739/

上一篇：docker - app.war中没有主 list 属性

下一篇：hadoop - 用hadoop MR替换输入文件中的文本

相关文章：

hadoop - 如何理解hadoop文件大小和局部性优化

hadoop - Mapper类型不是通用的hadoop eclipse插件

hadoop - 从 hdfs 中删除大量文件

hadoop - PIG 将文本行转换为稀疏向量

hadoop - 使用谓词下推在 Hive 中动态加载分区

hadoop - Hive Testbench数据生成失败

java - Hadoop中的MapReduce程序，实现了一个简单的 “People You Might Know”

hadoop - 仅在 mapreduce 模式下出现 Pig 0.13 错误

scala - 如何在Spark中操纵我的数据框？

hadoop - 在Windows上的hadoop中执行警告