Hadoop分析两个不同结构的文件

我如何在 hadoop 中分析两个具有不同结构的文件(没有 MapReduce)？

例如:文件 1 是 csv，第三列有 O2 索引

文件 2 是 csv，第二列有 O2 索引

我知道我可以使用 MapReduce 进行手动分析，但它是否更自动？因为它不只是两个文件。可能更多!

谢谢

最佳答案

您可以将这两个文件存储在不同的位置，构建两个单独的配置单元表，然后将这两个表合并到一个 View 中...

这很可能效率很低，应该使用自定义 Map/Reduce 来完成。

关于Hadoop分析两个不同结构的文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40878921/

相关文章：

datetime - 在 Hive 中将字符串转换为时间戳