hadoop - Hadoop 的段落处理

标签 hadoop

是否可以获取传递给 Mapper 类的文本段落而不是逐行传递。我正在寻找 ParagraphRecordReader 实现。

最佳答案

答案在 https://stackoverflow.com/a/5398215/1660002有点回答这个要求。但是,您也可以简单地将配置参数 textinputformat.record.delimiter 设置为双换行字符串(例如:"\n\n")来解决这个问题。

此可配置功能在 Apache Hadoop 0.23.x 和 2.x 版本以及 Cloudera 的 CDH3 和 CDH4 版本中可用,如果您使用它们的话。

关于hadoop - Hadoop 的段落处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12330447/

相关文章:

java - 编译WordCount.java时出现编译错误

hadoop - 如何通过Helm Chart在Kubernetes中安装Hadoop?

hadoop - Hive 查询 cli 有效,同样通过 hue 失败

hadoop - accumulo 无法加载平板电脑

java - URL 类中 setURLStreamHandlerFactory 的用途

maven - 使用Maven安装Whirr时出错

java - 指定了无效的Hadoop运行时-Eclipse

hadoop - 如何为 Hadoop 启动 mapred?

hadoop - Datastax Enterprise 3.2 配置单元超时异常

hadoop - 是否可以根据文件数量判断使用的映射器/缩减器的数量?