运行指向 S3 的 AWS Glue 爬网程序时,CloudWatch 中的第二个日志条目始终为:
Crawl is not running in S3 event mode
什么是 S3 事件模式?
这个名字听起来像是让 S3 在每个对象上传到前缀后调用 Glue 进行部分抓取的某种方式。但据我所知,这样的功能并不存在。那么这个日志条目指的是什么呢?
我在Glue documentation中找到的最接近的东西是event based triggers for Glue jobs ,但 Glue Jobs 与 Glue Crawlers 不同。
重现步骤
- 创建一个胶水爬行器。选择任意配置。将其指向任何具有任何数据集(甚至是空数据集)的 S3 存储桶中的任何位置
- 运行爬网程序。抓取失败或成功并不重要
- 打开该抓取的日志
- 查看第二个日志条目
2021-07-01T20:04:39.882+10:00
[6588c8ba-57e2-46e3-94b4-1bc4dfc5957d] BENCHMARK : Running Start Crawl for Crawler my-crawler
2021-07-01T20:04:40.200+10:00
[6588c8ba-57e2-46e3-94b4-1bc4dfc5957d] INFO : Crawl is not running in S3 event mode
最佳答案
AWS Support 给了我答案。
S3 事件模式是 AWS 内部可用的功能。正如我怀疑的那样,这意味着 S3 会为每个文件上传触发爬虫抓取。但此功能目前尚未公开。
关于amazon-web-services - 爬网未在 S3 事件模式下运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68309438/