我想下载 Infochimps 上提供的完整百万歌曲数据集。我没有使用 AWS,我的大学提供了一个集群,我想将数据下载到该集群。我目前正在使用 wget 但这需要我很长时间才能下载。有没有更好的方式下载数据?
还有没有办法直接将数据下载到 Hadoop 文件系统,而不是先下载到本地文件系统,然后使用 -copyFromLocal 复制到 HDFS?
请帮忙。
谢谢!
最佳答案
在我看来,最好的方法是使用像 Flume 这样的数据聚合工具。或 Chukwa .这两种工具都允许我们以分布式和可靠的方式聚合大量数据。不仅如此,这些工具还允许您将数据直接提取到 Hadoop 集群中。不过,您可能需要做一些工作,例如编写自定义源,将数据从源提取到集群中。
HTH
关于hadoop - 下载 280 GB 的百万歌曲数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16269410/