Hadoop分析两个不同结构的文件

标签 hadoop hive

我如何在 hadoop 中分析两个具有不同结构的文件(没有 MapReduce)?

例如:文件 1 是 csv,第三列有 O2 索引

文件 2 是 csv,第二列有 O2 索引

我知道我可以使用 MapReduce 进行手动分析,但它是否更自动?因为它不只是两个文件。可能更多!

谢谢

最佳答案

您可以将这两个文件存储在不同的位置,构建两个单独的配置单元表,然后将这两个表合并到一个 View 中...

这很可能效率很低,应该使用自定义 Map/Reduce 来完成。

关于Hadoop分析两个不同结构的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40878921/

相关文章:

datetime - 在 Hive 中将字符串转换为时间戳

hadoop - 单片ETL到分布式/可扩展解决方案,OLAP立方体到Elasticsearch/Solr

hadoop - 防止 MapReduce 程序中的输入拆分

hadoop - 在 Cloudera VM 中将数据从 HDFS 加载到 Hive Table

hadoop - 将分区添加到没有数据的配置单元表

sql - 单个配置单元查询以提取一段字符串

java - 点击历史项目显示无法在 hadoop 2.7.2 中连接

hadoop - 安装oozie sharelib

apache-spark - 授权异常 : User not allowed to impersonate User

SQL 选择通过至少一个公共(public)属性值与记录相交?