hadoop - 社交媒体数据如何成为非结构化数据？

我最近开始阅读大数据，以及如何使用 hadoop 或 BigInsights 等工具来管理结构化和非结构化数据。

社交媒体分析可以在 BigInsights 上完成，它获取非结构化数据并相应地对其进行分析/构建。

这让我想知道，社交媒体数据是如何非结构化的？例如，您可以使用 Twitter REST API 调用您在推文上收到的信息，并以结构化的 JSON 格式返回给您。

那么社交媒体数据不是已经结构化了吗？如果是这样，为什么您需要一个主要管理非结构化数据的平台？

最佳答案

有些人也做出“半结构化”的区分。

但重点是查询数据的能力。是的，推文等通常有一些结构。但它对分析没有帮助。

给定一个丑陋的 SQL 模式，你确实可以运行这样的查询

 SELECT AVG(TweetID) FROM Twitter;

但该功能在实践中毫无用处。这可能就是为什么最好将数据视为非结构化数据的原因:将其压缩到关系模式中不会使您受益。

不过，请注意大数据的流行语宾果游戏。通常“支持非结构化数据”实际上意味着“不受益于数据结构(通过使用索引)但每次都重新读取数据”

关于hadoop - 社交媒体数据如何成为非结构化数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28400188/