我的数据格式使用\0 而不是新行。所以默认的 hadoop textLine 阅读器不起作用。 如何配置它以读取由特殊字符分隔的行?
如果无法配置 LineReader,也许可以应用特定的流处理器(tr "\0""\n"),但不确定该怎么做。
最佳答案
有一个 "textinputformat.record.delimiter"
配置属性用于该目的。您可以通过将此属性值更改为“\0”来更改默认的 EOL(“\n”)分隔符。
有关更多信息,请访问此处:http://amalgjose.wordpress.com/2013/05/27/custom-text-input-format-record-delimiter-for-hadoop
关于更改 spark 中的默认定界符也有类似的问题,这可能也很有用:Setting textinputformat.record.delimiter in spark
关于java - 如何读取由特殊字符分隔的hadoop中的文本源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12118836/