我已经按照以下教程使用stormcrawler进行内容爬网,然后将其存储在elasticsearch中:https://www.youtube.com/watch?v=KTerugU12TY。但是,我想将每个文档的检索日期添加到其中。谁能告诉我该怎么做?
通常,如何更改已爬网内容的字段?
提前致谢
最佳答案
一种选择是在Elasticsearch中创建一个摄取管道以填充日期字段,如here所述。或者,您必须编写一个定制的parse filter以便将日期放入元数据中,然后在配置中使用indexer.md.mapping对其进行索引。
简化此操作可能会很有用,请随时在Github上打开一个问题(甚至更好地贡献一些代码),以便ES索引器可以检查配置以获取指示当前日期存储位置的字段名称,例如es.now.field。
关于elasticsearch - 使用StormCrawler(和Elasticsearch)将字段添加到已爬网内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59443971/