azure - 直接在 Azure 中下载并解压数据集

我需要直接在我的 Azure 帐户中加载并解压 27 GB 数据集，以便使用带有 textFile 函数的 Spark 实例来处理它，以进行一些机器学习。我该怎么做？

我想写更多，但我花了很多时间在网上冲浪，但仍然无法取得任何有用的东西。

这是数据集:

最佳答案

如果直接意味着从该位置到您的虚拟机，那么我认为最简单的方法是使用 AzCopy .

例如，在您的情况下，它可以是这样的: AzCopy/来源:https://academicgraphwe.blob.core.windows.net/graph-2016-02-05//Dest:C:\myfolder/SourceKey:key/Pattern:"abc.txt"

在虚拟机上安装 AzCopy 并运行命令。您此处不需要 SourceKey，因为您的数据集看起来位于公开可用的 blob 中。但是将您的链接更改为所需位置(因为它将指向某种链接列表)。

关于azure - 直接在 Azure 中下载并解压数据集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36812947/

相关文章：

azure - 90 天后访问 Azure B2C 登录日志