hadoop - 下载 280 GB 的百万歌曲数据集

我想下载 Infochimps 上提供的完整百万歌曲数据集。我没有使用 AWS，我的大学提供了一个集群，我想将数据下载到该集群。我目前正在使用 wget 但这需要我很长时间才能下载。有没有更好的方式下载数据？

还有没有办法直接将数据下载到 Hadoop 文件系统，而不是先下载到本地文件系统，然后使用 -copyFromLocal 复制到 HDFS？

请帮忙。

谢谢!

最佳答案

在我看来，最好的方法是使用像 Flume 这样的数据聚合工具。或 Chukwa .这两种工具都允许我们以分布式和可靠的方式聚合大量数据。不仅如此，这些工具还允许您将数据直接提取到 Hadoop 集群中。不过，您可能需要做一些工作，例如编写自定义源，将数据从源提取到集群中。

HTH

关于hadoop - 下载 280 GB 的百万歌曲数据集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16269410/