是否可以获取传递给 Mapper 类的文本段落而不是逐行传递。我正在寻找 ParagraphRecordReader 实现。
最佳答案
答案在 https://stackoverflow.com/a/5398215/1660002有点回答这个要求。但是,您也可以简单地将配置参数 textinputformat.record.delimiter
设置为双换行字符串(例如:"\n\n"
)来解决这个问题。
此可配置功能在 Apache Hadoop 0.23.x 和 2.x 版本以及 Cloudera 的 CDH3 和 CDH4 版本中可用,如果您使用它们的话。
关于hadoop - Hadoop 的段落处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12330447/