java - 如何读取由特殊字符分隔的hadoop中的文本源

标签 java hadoop mapreduce cascading

我的数据格式使用\0 而不是新行。所以默认的 hadoop textLine 阅读器不起作用。 如何配置它以读取由特殊字符分隔的行?

如果无法配置 LineReader,也许可以应用特定的流处理器(tr "\0""\n"),但不确定该怎么做。

最佳答案

有一个 "textinputformat.record.delimiter" 配置属性用于该目的。您可以通过将此属性值更改为“\0”来更改默认的 EOL(“\n”)分隔符。

有关更多信息,请访问此处:http://amalgjose.wordpress.com/2013/05/27/custom-text-input-format-record-delimiter-for-hadoop

关于更改 spark 中的默认定界符也有类似的问题,这可能也很有用:Setting textinputformat.record.delimiter in spark

关于java - 如何读取由特殊字符分隔的hadoop中的文本源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12118836/

相关文章:

java - 无法使用 Ant 删除文件

hadoop - whir cdh安装版本控制

hadoop - SparkContext 构造函数中的 appName 是什么,它的用途是什么?

performance - 在配置单元中分区

hadoop - 检测YARN何时杀死容器

java - Flink 中的 LeftOuterJoin(JAVA API)

java - 使用监听器从 httpURLConnection 检索数据

java - 在 Java 中对像素网格进行动画处理

java - SAX 解析器不调用开始元素

hadoop - org.apache.avro.AvroTypeException失败的Avro Mapreduce作业