我想将非结构化数据转换为结构化数据,以便于进行数据分析,因此我想知道PIG或HIVE是最好的。如果不能,则可以使用哪个其他Hadoop工具?如何使用?
最佳答案
以我的经验,最简洁但静态类型化且非常灵活的是缩放。它功能强大,简洁而实用。
Scalding是位于Cascading之上的一个开源Twitter项目。级联位于Hadoop之上。级联的作用是采取用户定义的阶段,然后神奇地将其“级联”为尽可能少的MapReduce阶段。
该页面几乎证明了扩展是最好的Hadoop API:
https://github.com/twitter/scalding/wiki/Rosetta-Code
现在,Spark(从技术上讲不是Hadoop技术,实际上要好得多)现在有了一个神奇的JsonRDD-您为其提供一个JSON文件,它将神奇地制定出该方案。
关于hadoop - 使用Hadoop将非结构化数据转换为结构化数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24261054/