hadoop - 下载 280 GB 的百万歌曲数据集

标签 hadoop download bigdata

我想下载 Infochimps 上提供的完整百万歌曲数据集。我没有使用 AWS,我的大学提供了一个集群,我想将数据下载到该集群。我目前正在使用 wget 但这需要我很长时间才能下载。有没有更好的方式下载数据?

还有没有办法直接将数据下载到 Hadoop 文件系统,而不是先下载到本地文件系统,然后使用 -copyFromLocal 复制到 HDFS?

请帮忙。

谢谢!

最佳答案

在我看来,最好的方法是使用像 Flume 这样的数据聚合工具。或 Chukwa .这两种工具都允许我们以分布式和可靠的方式聚合大量数据。不仅如此,这些工具还允许您将数据直接提取到 Hadoop 集群中。不过,您可能需要做一些工作,例如编写自定义源,将数据从源提取到集群中。

HTH

关于hadoop - 下载 280 GB 的百万歌曲数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16269410/

相关文章:

hadoop - Pig - 错误 1045 : AVG as multiple or none of them fit. 请使用显式转换

mysql - 从 Mysql 切换到 MongoDB 2 亿行

hadoop - 如何从日志文件查看/删除控制字符

hadoop - Xargs 命令不支持具有多个输入文件的 hadoop put 命令

javascript - Rails 使 flash[] 在 Javascript 重新加载时显示

c++ - 如何更改我的 C++ 代码以使其可在 C 中使用?

Hadoop、Hive、Pig、HBase、Cassandra——什么时候用什么?

java - 在 pig 中使用DayExtractor时,错误1200不匹配的输入 'as'期望为SEMI_COLON

javascript - 如何使用 Webix 和 Javascript 下载具有特定名称的文本文件

hadoop - split 发生在何时何地?