我最近开始阅读大数据,以及如何使用 hadoop 或 BigInsights 等工具来管理结构化和非结构化数据。
社交媒体分析可以在 BigInsights 上完成,它获取非结构化数据并相应地对其进行分析/构建。
这让我想知道,社交媒体数据是如何非结构化的?例如,您可以使用 Twitter REST API 调用您在推文上收到的信息,并以结构化的 JSON 格式返回给您。
那么社交媒体数据不是已经结构化了吗?如果是这样,为什么您需要一个主要管理非结构化数据的平台?
最佳答案
有些人也做出“半结构化”的区分。
但重点是查询数据的能力。是的,推文等通常有一些结构。但它对分析没有帮助。
给定一个丑陋的 SQL 模式,你确实可以运行这样的查询
SELECT AVG(TweetID) FROM Twitter;
但该功能在实践中毫无用处。这可能就是为什么最好将数据视为非结构化数据的原因:将其压缩到关系模式中不会使您受益。
不过,请注意大数据的流行语宾果游戏。通常“支持非结构化数据”实际上意味着“不受益于数据结构(通过使用索引)但每次都重新读取数据”
关于hadoop - 社交媒体数据如何成为非结构化数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28400188/