<分区>
我需要一个大数据(超过 10GB)来运行 Hadoop 演示。任何人都知道我可以在哪里下载它。请告诉我。
<分区>
我需要一个大数据(超过 10GB)来运行 Hadoop 演示。任何人都知道我可以在哪里下载它。请告诉我。
最佳答案
我建议您从以下网站下载百万歌曲数据集:
http://labrosa.ee.columbia.edu/millionsong/
百万歌曲数据集的最大优点是您可以将 1GB(约 10000 首歌曲)、10GB、50GB 或约 300GB 的数据集下载到您的 Hadoop 集群,并进行您想要的任何测试。我喜欢使用它,并使用这个数据集学到了很多东西。
首先,您可以下载以 A-Z 中的任意一个字母开头的数据集,范围从 1GB 到 20GB。您还可以使用 Infochimp 网站:
http://www.infochimps.com/collections/million-songs
在我的以下博客之一中,我展示了如何下载 1GB 数据集并运行 Pig 脚本:
关于hadoop - 为 Hadoop 下载大数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10843892/
相关文章:
apache-spark - 我只能从HDP安装HDFS吗?
linux - 无法写入 Hadoop DFS 目录模式 775 组权限 UserGroupInformation
javascript - Chrome 网络错误 - 下载 PDF
android - WebView 下载会在返回 WebView 之前短暂打开浏览器窗口
hadoop - 色调 HBase API 错误 : None
python - 使用 python 流解析从 org.apache.avro.mapred.AvroAsTextInputFormat 生成的 json 字符串