hadoop - 社交媒体数据如何成为非结构化数据?

标签 hadoop bigdata data-mining

我最近开始阅读大数据,以及如何使用 hadoop 或 BigInsights 等工具来管理结构化和非结构化数据。

社交媒体分析可以在 BigInsights 上完成,它获取非结构化数据并相应地对其进行分析/构建。

这让我想知道,社交媒体数据是如何非结构化的?例如,您可以使用 Twitter REST API 调用您在推文上收到的信息,并以结构化的 JSON 格式返回给您。

那么社交媒体数据不是已经结构化了吗?如果是这样,为什么您需要一个主要管理非结构化数据的平台?

最佳答案

有些人也做出“半结构化”的区分。

但重点是查询数据的能力。是的,推文等通常有一些结构。但它对分析没有帮助

给定一个丑陋的 SQL 模式,你确实可以运行这样的查询

 SELECT AVG(TweetID) FROM Twitter;

但该功能在实践中毫无用处。这可能就是为什么最好将数据视为非结构化数据的原因:将其压缩到关系模式中不会使您受益。

不过,请注意大数据的流行语宾果游戏。通常“支持非结构化数据”实际上意味着“不受益于数据结构(通过使用索引)但每次都重新读取数据”

关于hadoop - 社交媒体数据如何成为非结构化数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28400188/

相关文章:

java - Hadoop 作业制定,将 ArrayList<String> 传递给 Mapper()

hadoop - 如何从配置单元中的同一个数据库中获取两个表的不匹配记录?

user-interface - Hadoop加速的网络悬浮合并的设计和评估

hadoop - 无法将参数传递给配置单元脚本

r - 何时在 R 中的插入符包中使用 train() 的索引和种子参数

web-scraping - 来自 NOAA 的历史天气数据

hadoop - HDP 2.1 到 2.2 升级 RHEL6

hadoop - Hive Oozie 错误处理

python - 将150个CSV导入一个数据源

algorithm - 具有精确拟合的整数数据挖掘