amazon-web-services - 使用 "source-ref"的 AWS Ground Truth 文本分类 list 不显示文本

背景

我正在尝试 SageMaker Ground Truth，an AWS service to help you label your data before using it in your ML algorithms .

标记作业需要一个 list 文件，其中每行包含一个 JSON 对象，其中包含 source 或 source-ref，另请参阅 Input Data section的文档。

设置

Source-ref 是对文档在 S3 存储桶中位置的引用，如下所示

my-bucket/data/manifest.json
my-bucket/data/123.txt
my-bucket/data/124.txt

...

list 文件如下所示(基于 blog example ):

{"source-ref": "s3://my-bucket/data/123.txt"}
{"source-ref": "s3://my-bucket/data/124.txt"}
...

问题

当我创建作业时，我得到的只是 source-ref 值:s3://my-bucket/data/123.txt 作为文本，不显示文件的内容。

我尝试使用不包含 s3 协议(protocol)的 list 创建作业，但得到了相同的结果。

这是他们的错误还是我遗漏了什么？

观察结果

我尝试公开所有文件，认为可能存在权限问题？但没有
我确保文件的内容类型是文本(s3 -> 对象 -> 属性 -> 元数据)
如果我使用“源”并内联文本，它可以正常工作，但我应该能够使用单个文档，因为文件大小有限制，特别是当我必须标记许多或大型文档时!

最佳答案

我是 AWS SageMaker Ground Truth 团队的成员。得知您在使用我们产品的某些功能时遇到困难，我们深感抱歉。

根据您的帖子，我假设您有多个文本文件，并且每个文本文件包含多行。对于文本分类，为了在控制台中显示预览，我们目前仅支持使用包含每一行的“source”的内联模式。

我们知道创建这样的带有嵌入文本的 list 并不方便，因为它既不琐碎又耗时。这就是为什么我们在控制台中提供了抓取功能(请参阅输入 list 框上的“创建输入 list ”链接)，该功能采用输入 s3Prefix 并抓取该前缀中的所有文本文件(扩展名为 .txt、.csv)并读取前缀中每个文本文件的每一行，并创建一个 list ，其中每一行为 {“source”:””}。请告知我们您是否可以抓取以创建 list 。

请注意，当前爬虫仅在您从控制台创建 s3://my-bucket/data/文件夹，然后上传该文件夹中的所有文本文件(而不是使用 s3 cli 同步工具上传本地数据/目录)。

很抱歉，如果我们的文档不清楚，我们一定会采纳您的反馈来改进我们的产品。如有任何问题，请联系我们:https://aws.amazon.com/contact-us/

关于amazon-web-services - 使用 "source-ref"的 AWS Ground Truth 文本分类 list 不显示文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53624568/

amazon-web-services - 使用 "source-ref"的 AWS Ground Truth 文本分类 list 不显示文本

背景

设置

问题

观察结果

上一篇：python - 如何提高随机森林多类分类模型的准确率？

下一篇：python - “DNN”对象在 ImageDataGenerator() 中没有属性 'fit_generator' - keras - python