我有一个固定长度的二进制文件。记录是这样的:
[Field1:int, Field2:double, Field3: int, ....]
如何将此文件作为我的 map reduce 作业的输入? 我需要编写自定义 InputFormat 吗? 有没有人可以发布一个例子?
谢谢
最佳答案
我发现存在一个名为 FixedLengthInputFormat 的类!它运作良好! 我可以将记录的长度传递给它。映射器接收一个 BytesWritable(一种字节数组)作为输入值,我只是将它反序列化为一个对象。
https://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/FixedLengthInputFormat.html
关于java - 自定义二进制文件 - 从 hadoop 读取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25086462/