我需要直接在我的 Azure 帐户中加载并解压 27 GB 数据集,以便使用带有 textFile 函数的 Spark 实例来处理它,以进行一些机器学习。我该怎么做?
我想写更多,但我花了很多时间在网上冲浪,但仍然无法取得任何有用的东西。
这是数据集:
https://academicgraphwe.blob.core.windows.net/graph-2016-02-05/index.html
最佳答案
如果直接意味着从该位置到您的虚拟机,那么我认为最简单的方法是使用 AzCopy .
例如,在您的情况下,它可以是这样的: AzCopy/来源:https://academicgraphwe.blob.core.windows.net/graph-2016-02-05//Dest:C:\myfolder/SourceKey:key/Pattern:"abc.txt"
在虚拟机上安装 AzCopy 并运行命令。您此处不需要 SourceKey,因为您的数据集看起来位于公开可用的 blob 中。但是将您的链接更改为所需位置(因为它将指向某种链接列表)。
关于azure - 直接在 Azure 中下载并解压数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36812947/