hadoop - 为 Hadoop 下载大数据

标签 hadoop download

<分区>

我需要一个大数据(超过 10GB)来运行 Hadoop 演示。任何人都知道我可以在哪里下载它。请告诉我。

最佳答案

我建议您从以下网站下载百万歌曲数据集:

http://labrosa.ee.columbia.edu/millionsong/

百万歌曲数据集的最大优点是您可以将 1GB(约 10000 首歌曲)、10GB、50GB 或约 300GB 的数据集下载到您的 Hadoop 集群,并进行您想要的任何测试。我喜欢使用它,并使用这个数据集学到了很多东西。

首先,您可以下载以 A-Z 中的任意一个字母开头的数据集,范围从 1GB 到 20GB。您还可以使用 Infochimp 网站:

http://www.infochimps.com/collections/million-songs

在我的以下博客之一中,我展示了如何下载 1GB 数据集并运行 Pig 脚本:

http://blogs.msdn.com/b/avkashchauhan/archive/2012/04/12/processing-million-songs-dataset-with-pig-scripts-on-apache-hadoop-on-windows-azure.aspx

关于hadoop - 为 Hadoop 下载大数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10843892/

相关文章:

用于下载名称中包含 utf-8 字符的文件的 PHP 脚本

apache-spark - 我只能从HDP安装HDFS吗?

linux - 无法写入 Hadoop DFS 目录模式 775 组权限 UserGroupInformation

php - 为每次下载重命名文件夹

javascript - Chrome 网络错误 - 下载 PDF

android - WebView 下载会在返回 WebView 之前短暂打开浏览器窗口

hadoop - 色调 HBase API 错误 : None

python - 使用 python 流解析从 org.apache.avro.mapred.AvroAsTextInputFormat 生成的 json 字符串

java - 如何在控制台上抑制 hadoop 生成的日志消息

ios - 将文件保存到临时目录,然后从该临时目录回调 url