背景
我正在尝试 SageMaker Ground Truth,an AWS service to help you label your data before using it in your ML algorithms .
标记作业需要一个 list 文件,其中每行包含一个 JSON 对象,其中包含 source
或 source-ref
,另请参阅 Input Data section的文档。
设置
Source-ref 是对文档在 S3 存储桶中位置的引用,如下所示
my-bucket/data/manifest.json
my-bucket/data/123.txt
my-bucket/data/124.txt
...
list 文件如下所示(基于 blog example ):
{"source-ref": "s3://my-bucket/data/123.txt"}
{"source-ref": "s3://my-bucket/data/124.txt"}
...
问题
当我创建作业时,我得到的只是 source-ref
值:s3://my-bucket/data/123.txt 作为文本,不显示文件的内容。
我尝试使用不包含 s3 协议(protocol)的 list 创建作业,但得到了相同的结果。
这是他们的错误还是我遗漏了什么?
观察结果
- 我尝试公开所有文件,认为可能存在权限问题?但没有
- 我确保文件的内容类型是文本(s3 -> 对象 -> 属性 -> 元数据)
- 如果我使用“源”并内联文本,它可以正常工作,但我应该能够使用单个文档,因为文件大小有限制,特别是当我必须标记许多或大型文档时!
最佳答案
我是 AWS SageMaker Ground Truth 团队的成员。得知您在使用我们产品的某些功能时遇到困难,我们深感抱歉。
根据您的帖子,我假设您有多个文本文件,并且每个文本文件包含多行。对于文本分类,为了在控制台中显示预览,我们目前仅支持使用包含每一行的“source”的内联模式。
我们知道创建这样的带有嵌入文本的 list 并不方便,因为它既不琐碎又耗时。这就是为什么我们在控制台中提供了抓取功能(请参阅输入 list 框上的“创建输入 list ”链接),该功能采用输入 s3Prefix 并抓取该前缀中的所有文本文件(扩展名为 .txt、.csv)并读取前缀中每个文本文件的每一行,并创建一个 list ,其中每一行为 {“source”:””}。请告知我们您是否可以抓取以创建 list 。
请注意,当前爬虫仅在您从控制台创建 s3://my-bucket/data/文件夹,然后上传该文件夹中的所有文本文件(而不是使用 s3 cli 同步工具上传本地数据/目录)。
很抱歉,如果我们的文档不清楚,我们一定会采纳您的反馈来改进我们的产品。如有任何问题,请联系我们:https://aws.amazon.com/contact-us/
关于amazon-web-services - 使用 "source-ref"的 AWS Ground Truth 文本分类 list 不显示文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53624568/