azure - 使用 NiFi 从 Azure 到 Google Cloud Platform 的数据流

标签 azure hadoop google-cloud-platform bigdata apache-nifi

我的目标是使用 NiFijson/xml 文件从 Azure 移动到 Google Cloud Platform(GCP) >。经过我的所有研发,我发现了一些可能有帮助的处理器。列表如下:

  1. 获取文件
  2. 放置文件
  3. putGCSObject- 将数据放入 GCP
  4. Found this link as an alternative to get files from Azure since there is no in-built processor available

上面的链接很复杂。那么根据我的目标我走对了吗?我需要任何额外的处理器吗?以及定义此流程时我需要进行的任何重要配置?

请帮助我,因为我是新手,刚刚开始使用 NiFi

最佳答案

如果我回答正确,您的目标是将 Azure 文件存储中的文件移动到 Google 云存储。对吗?

如果是这样,那么您几乎走在正确的道路上。正如您所提到的,Apache NiFi 目前没有用于 Azure Files 的处理器,因此请按照您在此处引用的 Microsoft 指南进行操作,并将 Azure Files 安装到您的 Linux 计算机上,并创建如下流程:ListFile -> FetchFile -> PutGCSObject

GetFile 或任何 Get* 处理器都是传统性质的,新的列表/获取模式非常好,因为它可以帮助您进行状态跟踪等,

顺便说一句,您不需要 PutFile 因为该处理器的目标是将文件写入本地文件系统,但我们在这里将 GCS 作为我们的接收器。

关于azure - 使用 NiFi 从 Azure 到 Google Cloud Platform 的数据流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55315357/

相关文章:

azure - 修改/替换探针导致 CannotModifyRuleUsedByProbeUsedByVMSS

node.js - azure 函数 - 在 azure 门户上运行 npm install

c# - 无法加载资源: the server responded with a status of 500 (Internal Server Error) Azure MVC

kubernetes - GCP Kubernetes 规模太高

redirect - Ingress 给出 502 错误

entity-framework - 发布到 Azure Web App 的 ASP.NET Web API 中出现不可预测的 API 请求延迟峰值

java - R和Hive连接-RJDBC + RHive

java - AWS EMR Step 失败,因为它创建的作业失败

hadoop - 从 Oozie (CDH) 运行 Spark2

google-cloud-platform - CloudSQL 实例必须与查询连接位于同一项目中