hadoop - Hadoop数据分割和数据流控制

标签 hadoop mapreduce hdfs hadoop-streaming hadoop-plugins

对于A hadoop作为存储系统，我有2个问题。

我有一个由3个数据节点组成的hadoop集群，我想将一个大小为128mb的巨大文件的分割(假定分割大小为64mb)定向到我选择的数据节点。
在这种情况下，这就是如何控制将拆分拆分到哪个DataNode的方法。我的意思是说我们有3个数据节点(即D1，D2，D3)，我们想要特定的分割(让我们说“A”)，希望它移至特定的数据节点，使其成为D2。

我们应该怎么做？

hadoop文件系统的最小拆分大小是多少。我们如何将其配置为最小的拆分大小。

最佳答案

1)您无法控制数据块的放置位置

2)尽可能的小(虽然可能应该是1024字节的倍数，但是我不认为这有实际限制)，但是在现代硬件上，任何小于64/128 MB的都是低效率的(您可以指定如果您在MR作业中执行CPU密集型操作，则处理拆分的大小会减小)

关于hadoop - Hadoop数据分割和数据流控制，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11941002/

上一篇：python - 如何使 Python、R 和 MongoDB 的 Docker 容器镜像协同工作

下一篇：hadoop - Hadoop性能基准

相关文章：

Hadoop/Pig 正则表达式匹配

amazon-web-services - Amazon Elastic Map Reduce - 让服务器保持事件状态？

java - 使用 Eclipse 和 CHD4 的 JDBC 连接到 Hive 时出错

java - reduce() 不适用于 lightcouch

hadoop - hdfs dfs -getmerge 命令有什么作用？

shell - 如何在Hadoop中转义 “.\file_name”以将其重命名为 “file_name”，我尝试了一些类似的示例，但无济于事

hadoop - 有没有办法将节点添加到正在运行的 Hadoop 集群？

hadoop - 将所有映射器中遇到的最大键作为参数传递给下一个作业

hadoop - 无法以非 sudo 用户身份写入 HDFS

hadoop - 如何使用 hadoop 1.0.3 版更改 EMR 中的 block 大小和复制因子