hadoop - 在 pig 中读取二进制 avro

我正在将一个二进制对象发送到 HDFS，并且有我的水槽代理和接收器设置如下所示

a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = /user/%y-%m-%d/%H%M/%S
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute

a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.serializer = avro_event
a1.sinks.k1.hdfs.serializer.syncIntervalBytes = 4096000
a1.sinks.k1.hdfs.serializer.compressionCodec = snappy
a1.sinks.k1.hdfs.serializer.appendNewline = false
a1.sinks.k1.hdfs.fileSuffix=.avro
a1.sinks.k1.hdfs.writeFormat=TEXT

现在我正在尝试使用这个从 HDFS 读取这个文件(something.avro)

data = LOAD 'something.avro'
      USING org.apache.pig.piggybank.storage.avro.AvroStorage();
dump data;

我一直收到这个异常，想知道为什么我会收到那个异常，或者是否有另一种方法可以在不提供 avro 模式的情况下读取 pig 脚本中的二进制 avro 对象

Caused by: java.io.IOException: Not a data file.
at org.apache.avro.file.DataFileStream.initialize(DataFileStream.java:105)
at org.apache.avro.file.DataFileStream.<init>(DataFileStream.java:84)
at org.apache.pig.piggybank.storage.avro.AvroStorageUtils.getSchema(AvroStorageUtils.java:718)
at org.apache.pig.piggybank.storage.avro.AvroStorage.getSchema(AvroStorage.java:349)
at org.apache.pig.piggybank.storage.avro.AvroStorage.getAvroSchema(AvroStorage.java:277)
at org.apache.pig.piggybank.storage.avro.AvroStorage.getAvroSchema(AvroStorage.java:248)
at org.apache.pig.piggybank.storage.avro.AvroStorage.setInputAvroSchema(AvroStorage.java:226)
at org.apache.pig.piggybank.storage.avro.AvroStorage.getSchema(AvroStorage.java:434)
at org.apache.pig.newplan.logical.relational.LOLoad.getSchemaFromMetaData(LOLoad.java:175)

最佳答案

这里有同样的问题，我认为是因为我们正在读取 avro 二进制数据，它与 AVRO 文件不同。

您可以尝试使用 fragtojson 使用 avro-tools 读取文件

java -jar avro-tools-1.7.7.jar fragtojson part0.avro --schema-file schema.avsc

看看效果如何!如果您设法阅读 PIG，请发布任何发现。

关于hadoop - 在 pig 中读取二进制 avro，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27831326/

hadoop - 在 pig 中读取二进制 avro

上一篇：c++ - 在 ARM 架构上重新编译 Hadoop 源代码后缺少库

下一篇：sql-server - Sqoop从hive导出到sql被卡住