performance - hadoop大文件不拆分

标签 performance hadoop split mapreduce

我有一个大小为 136MB 的输入文件，我启动了一些 WordCount 测试，我只监控一个映射器。然后我在我的 hdfs-site.xml 中将 dfs.blocksize 设置为 64MB 并且我仍然得到一个映射器。我做错了吗？

最佳答案

dfs.block.size is not alone playing a role and it's recommended not to change because it applies globally to HDFS.

Split size in mapreduce is calculated by this formula
max(mapred.min.split.size, min(mapred.max.split.size, dfs.block.size))
So you can set these properties in driver class as
conf.setLong("mapred.max.split.size", maxSplitSize); 
conf.setLong("mapred.min.split.size", minSplitSize); 
Or in Config file as
<property>
    <name>mapred.max.split.size</name>
    <value>134217728</value>
</property>
<property>
    <name>mapred.min.split.size</name>
    <value>134217728</value>
</property>

关于performance - hadoop大文件不拆分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30965244/

上一篇：csv - 从现有外部表创建外部 Hive 表

下一篇：java - Hadoop项目启动时需要的JAR有哪些？

java - 尝试按 },{ 分割时出现 PatternSyntaxException

python - 从具有多个字符串的列制作 get_dummies 类型数据框的最快方法

sql - 使用 SQL 排序规则影响性能

mysql - 不加入时 SQL 性能受到影响

python - 有没有办法提高 nltk.sentiment.vader 情感分析的性能？

javascript - JS Object.assign 以自己的类作为属性

hadoop - 在 cloudera impala 1.2.3 中使用 date_sub() udf 从 View 查询时出现连接重置错误

regex - Hive:反斜杠的正则表达式

java - 运行 Hadoop 示例 Jar