java - 如何读取由特殊字符分隔的hadoop中的文本源

我的数据格式使用\0 而不是新行。所以默认的 hadoop textLine 阅读器不起作用。如何配置它以读取由特殊字符分隔的行？

如果无法配置 LineReader，也许可以应用特定的流处理器(tr "\0""\n")，但不确定该怎么做。

最佳答案

有一个 "textinputformat.record.delimiter" 配置属性用于该目的。您可以通过将此属性值更改为“\0”来更改默认的 EOL(“\n”)分隔符。

关于更改 spark 中的默认定界符也有类似的问题，这可能也很有用:Setting textinputformat.record.delimiter in spark

关于java - 如何读取由特殊字符分隔的hadoop中的文本源，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12118836/

相关文章：

java - 无法使用 Ant 删除文件