我正在为我的项目寻找 Twitter 或其他社交网站数据集。我目前有 CAW 2.0 twitter 数据集,但它只包含用户的推文。我想要一个显示 friend 、关注者等数量的数据。
它不一定是推特,但我更喜欢推特或 Facebook 。我已经尝试过 infochimps,但显然该文件无法再用于 Twitter 下载。
谁能给我找到这类数据集的好网站。我将把数据集提供给 hadoop。
最佳答案
尝试以下三个数据集:
包含大约 9700 万条推文:
注意:由于 Twitter 要求将其删除,因此上面链接的数据集不再可用。
包含 4700 万用户的用户图:
http://an.kaist.ac.kr/traces/WWW2010.html
以下数据集包含网络和推文,但是数据是通过滚雪球采样或其他方式收集的,因此 friend 网络并不统一。它有大约 1000 万条推文,您可以邮寄给研究人员以获取更多数据。
http://www.public.asu.edu/~mdechoud/datasets.html
尽管查看数据分发所依据的许可证。
希望对您有所帮助, 您还可以告诉我该数据集计划进行什么样的工作吗? 我有几个 hadoop/pig 脚本可以与数据集一起使用
关于facebook - 推特(社交网络)数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3340810/