hadoop - Hadoop数据分割和数据流控制

标签 hadoop mapreduce hdfs hadoop-streaming hadoop-plugins

对于A hadoop作为存储系统,我有2个问题。

  • 我有一个由3个数据节点组成的hadoop集群,我想将一个大小为128mb的巨大文件的分割(假定分割大小为64mb)定向到我选择的数据节点。
    在这种情况下,这就是如何控制将拆分拆分到哪个DataNode的方法。我的意思是说我们有3个数据节点(即D1,D2,D3),我们想要特定的分割(让我们说“A”),希望它移至特定的数据节点,使其成为D2。

    我们应该怎么做 ?
  • hadoop文件系统的最小拆分大小是多少。我们如何将其配置为最小的拆分大小。
  • 最佳答案

    1)您无法控制数据块的放置位置

    2)尽可能的小(虽然可能应该是1024字节的倍数,但是我不认为这有实际限制),但是在现代硬件上,任何小于64/128 MB的都是低效率的(您可以指定如果您在MR作业中执行CPU密集型操作,则处理拆分的大小会减小)

    关于hadoop - Hadoop数据分割和数据流控制,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11941002/

    相关文章:

    Hadoop/Pig 正则表达式匹配

    amazon-web-services - Amazon Elastic Map Reduce - 让服务器保持事件状态?

    java - 使用 Eclipse 和 CHD4 的 JDBC 连接到 Hive 时出错

    java - reduce() 不适用于 lightcouch

    hadoop - hdfs dfs -getmerge 命令有什么作用?

    shell - 如何在Hadoop中转义 “.\file_name”以将其重命名为 “file_name”,我尝试了一些类似的示例,但无济于事

    hadoop - 有没有办法将节点添加到正在运行的 Hadoop 集群?

    hadoop - 将所有映射器中遇到的最大键作为参数传递给下一个作业

    hadoop - 无法以非 sudo 用户身份写入 HDFS

    hadoop - 如何使用 hadoop 1.0.3 版更改 EMR 中的 block 大小和复制因子