hadoop - 使用Hadoop将非结构化数据转换为结构化数据

标签 hadoop

我想将非结构化数据转换为结构化数据,以便于进行数据分析,因此我想知道PIG或HIVE是最好的。如果不能,则可以使用哪个其他Hadoop工具?如何使用?

最佳答案

以我的经验,最简洁但静态类型化且非常灵活的是缩放。它功能强大,简洁而实用。

Scalding是位于Cascading之上的一个开源Twitter项目。级联位于Hadoop之上。级联的作用是采取用户定义的阶段,然后神奇地将其“级联”为尽可能少的MapReduce阶段。

该页面几乎证明了扩展是最好的Hadoop API:

https://github.com/twitter/scalding/wiki/Rosetta-Code

现在,Spark(从技术上讲不是Hadoop技术,实际上要好得多)现在有了一个神奇的JsonRDD-您为其提供一个JSON文件,它将神奇地制定出该方案。

关于hadoop - 使用Hadoop将非结构化数据转换为结构化数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24261054/

相关文章:

java - hadoop 日志中的 "complete event for unknown container id"是什么意思?

hadoop - 使用 Hadoop 查找两个数据集的差异

hadoop - 为什么我的 Flume 代理没有启动?

sql-server - 使用 hadoop 的 SQL Server 2016 polybase 错误

hadoop - Hadoop Reducer 中的结果是什么?

java - hbase与java客户端的连接

scala - 将 Spark 流数据写入并附加到 HDFS 中的文本文件

java - 如何测试 HDFS I/O 吞吐量

hadoop - hdfs:现有文件上的 “No such file or directory”

java - 使用 Java Apis 在 hadoop 中运行 Streaming 作业