amazon-web-services - 爬网未在 S3 事件模式下运行

标签 amazon-web-services amazon-s3 aws-glue

运行指向 S3 的 AWS Glue 爬网程序时，CloudWatch 中的第二个日志条目始终为:

Crawl is not running in S3 event mode

什么是 S3 事件模式？

这个名字听起来像是让 S3 在每个对象上传到前缀后调用 Glue 进行部分抓取的某种方式。但据我所知，这样的功能并不存在。那么这个日志条目指的是什么呢？

我在Glue documentation中找到的最接近的东西是event based triggers for Glue jobs ，但 Glue Jobs 与 Glue Crawlers 不同。

重现步骤

创建一个胶水爬行器。选择任意配置。将其指向任何具有任何数据集(甚至是空数据集)的 S3 存储桶中的任何位置
运行爬网程序。抓取失败或成功并不重要
打开该抓取的日志
查看第二个日志条目

2021-07-01T20:04:39.882+10:00
[6588c8ba-57e2-46e3-94b4-1bc4dfc5957d] BENCHMARK : Running Start Crawl for Crawler my-crawler
2021-07-01T20:04:40.200+10:00
[6588c8ba-57e2-46e3-94b4-1bc4dfc5957d] INFO : Crawl is not running in S3 event mode

最佳答案

AWS Support 给了我答案。

S3 事件模式是 AWS 内部可用的功能。正如我怀疑的那样，这意味着 S3 会为每个文件上传触发爬虫抓取。但此功能目前尚未公开。

关于amazon-web-services - 爬网未在 S3 事件模式下运行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68309438/

上一篇：读取字符串并组合 R 中的相似术语

下一篇：stackexchange-api - 如何使用 StackExchange API 从用户个人资料页面获取 "top x% this y"？

相关文章：

python - 在步骤函数中调用时如何让 Python 胶水作业返回？

amazon-s3 - Glue Crawler 无法排除 .csv.metadata 文件

postgresql - Postgres 数据库中特殊的时区处理

java - AWS Kinesis 客户端失败并显示 java.lang.NoClassDefFoundError

amazon-web-services - 使用 cloudformation 为 S3 存储桶启用 Lambda 函数

ruby - 未初始化常量 AWS::S3::Base 通过 AWS-SDK

amazon-web-services - 如何在 S3 加密中启用 AWS 托管 key (aws/s3) 作为 AWS KMS key

hadoop - MIT StarCluster 和 S3

java - 如何通过 CloudFront 将对象放入 S3

pyspark - 胶水 AWS : error occurred while calling o60. getDynamicFrame