amazon-web-services - 使用 "source-ref"的 AWS Ground Truth 文本分类 list 不显示文本

标签 amazon-web-services machine-learning amazon-sagemaker

背景

我正在尝试 SageMaker Ground Truth,an AWS service to help you label your data before using it in your ML algorithms .

标记作业需要一个 list 文件,其中每行包含一个 JSON 对象,其中包含 sourcesource-ref,另请参阅 Input Data section的文档。

设置

Source-ref 是对文档在 S3 存储桶中位置的引用,如下所示

my-bucket/data/manifest.json
my-bucket/data/123.txt
my-bucket/data/124.txt

...

list 文件如下所示(基于 blog example ):

{"source-ref": "s3://my-bucket/data/123.txt"}
{"source-ref": "s3://my-bucket/data/124.txt"}
...

问题

当我创建作业时,我得到的只是 source-ref 值:s3://my-bucket/data/123.txt 作为文本,不显示文件的内容。

我尝试使用不包含 s3 协议(protocol)的 list 创建作业,但得到了相同的结果。

这是他们的错误还是我遗漏了什么?

观察结果

  • 我尝试公开所有文件,认为可能存在权限问题?但没有
  • 我确保文件的内容类型是文本(s3 -> 对象 -> 属性 -> 元数据)
  • 如果我使用“源”并内联文本,它可以正常工作,但我应该能够使用单个文档,因为文件大小有限制,特别是当我必须标记许多或大型文档时!

最佳答案

我是 AWS SageMaker Ground Truth 团队的成员。得知您在使用我们产品的某些功能时遇到困难,我们深感抱歉。

根据您的帖子,我假设您有多个文本文件,并且每个文本文件包含多行。对于文本分类,为了在控制台中显示预览,我们目前仅支持使用包含每一行的“source”的内联模式。

我们知道创建这样的带有嵌入文本的 list 并不方便,因为它既不琐碎又耗时。这就是为什么我们在控制台中提供了抓取功能(请参阅输入 list 框上的“创建输入 list ”链接),该功能采用输入 s3Prefix 并抓取该前缀中的所有文本文件(扩展名为 .txt、.csv)并读取前缀中每个文本文件的每一行,并创建一个 list ,其中每一行为 {“source”:””}。请告知我们您是否可以抓取以创建 list 。

请注意,当前爬虫仅在您从控制台创建 s3://my-bucket/data/文件夹,然后上传该文件夹中的所有文本文件(而不是使用 s3 cli 同步工具上传本地数据/目录)。

很抱歉,如果我们的文档不清楚,我们一定会采纳您的反馈来改进我们的产品。如有任何问题,请联系我们:https://aws.amazon.com/contact-us/

关于amazon-web-services - 使用 "source-ref"的 AWS Ground Truth 文本分类 list 不显示文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53624568/

相关文章:

amazon-web-services - 完成训练工作并创建端点后,如何在 AWS SageMaker 中部署图像分类模型

javascript - @aws-cdk/pipelines 和 @aws-cdk/aws-codepipeline 有什么区别?

amazon-web-services - 云形成 : The role defined for the function cannot be assumed by Lambda

amazon-web-services - 亚马逊网上商店库存作为 RSS/数据源

amazon-web-services - 无法从我的 ubuntu EC2 机器连接到 AWS DocumentDB

api - 如何判断图片是否露骨

python - BertForSequenceClassification 是否对 CLS 向量进行分类?

machine-learning - 类先验在 Weka 分类中的作用

amazon-s3 - 亚马逊 SageMaker : ClientError: Data download failed:NoSuchKey (404): The specified key does not exist

nginx - SageMaker TensorFlow 服务堆栈比较