如何创建一个 Scalding
Source
来处理 avro
和 parquet
之间的转换。
解决方案应该:
1. Read from parquet format and convert to avro memory representation
2. Write avro objects into a parquet file
注意:我注意到 Cascading 有一个用于利用 thrift 和 parquet 的模块。我突然想到这将是一个开始寻找的好地方。我还在 google-groups/scalding-dev 上开了一个帖子
最佳答案
关于hadoop - 添加对 scalding 的 parquet-avro 支持,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25809463/