hadoop - 使用Hadoop将非结构化数据转换为结构化数据

我想将非结构化数据转换为结构化数据，以便于进行数据分析，因此我想知道PIG或HIVE是最好的。如果不能，则可以使用哪个其他Hadoop工具？如何使用？

最佳答案

以我的经验，最简洁但静态类型化且非常灵活的是缩放。它功能强大，简洁而实用。

Scalding是位于Cascading之上的一个开源Twitter项目。级联位于Hadoop之上。级联的作用是采取用户定义的阶段，然后神奇地将其“级联”为尽可能少的MapReduce阶段。

该页面几乎证明了扩展是最好的Hadoop API:

https://github.com/twitter/scalding/wiki/Rosetta-Code

现在，Spark(从技术上讲不是Hadoop技术，实际上要好得多)现在有了一个神奇的JsonRDD-您为其提供一个JSON文件，它将神奇地制定出该方案。

关于hadoop - 使用Hadoop将非结构化数据转换为结构化数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24261054/

上一篇：hadoop - Mahout K表示聚类输入文件格式

下一篇：hadoop - 将时间戳分类为上午，下午，晚上

hadoop - 使用 Hadoop 查找两个数据集的差异

hadoop - 为什么我的 Flume 代理没有启动？

sql-server - 使用 hadoop 的 SQL Server 2016 polybase 错误

hadoop - Hadoop Reducer 中的结果是什么？

java - hbase与java客户端的连接

scala - 将 Spark 流数据写入并附加到 HDFS 中的文本文件

java - 如何测试 HDFS I/O 吞吐量

hadoop - hdfs:现有文件上的 “No such file or directory”

java - 使用 Java Apis 在 hadoop 中运行 Streaming 作业