Dataflow SDK 中是否有任何内容可以让我在工作器上暂存资源文件?我需要在文件系统上为执行 NLP 的自定义 DoFn 提供特定的静态文件资源。我的目标是从类加载器中获取一个 zip 文件资源,并在工作器正在初始化时在工作器文件系统上仅将其解压缩一次,而不是尝试在自定义 DoFn 中执行此操作。
最佳答案
您可以指定 --filesToStage
指定应该暂存的文件。有几个问题需要注意:
--filesToStage
到类路径中的所有文件,这可确保工作人员可以使用运行管道所需的代码。如果您覆盖此选项,您需要确保它包含您的代码。 --filesToStage=foo.zip
,文件名将是 foo-<someHash>.zip
.您需要遍历类路径中的所有文件以找到合适的文件。 请参阅
--filesToStage
上的文档在 https://cloud.google.com/dataflow/pipelines/executing-your-pipeline了解更多信息。
关于google-cloud-platform - 在谷歌数据流工作器上暂存文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30516965/