elasticsearch - 使用StormCrawler(和Elasticsearch)将字段添加到已爬网内容

标签 elasticsearch web-crawler apache-storm stormcrawler

我已经按照以下教程使用stormcrawler进行内容爬网，然后将其存储在elasticsearch中:https://www.youtube.com/watch?v=KTerugU12TY。但是，我想将每个文档的检索日期添加到其中。谁能告诉我该怎么做？

通常，如何更改已爬网内容的字段？

提前致谢

最佳答案

一种选择是在Elasticsearch中创建一个摄取管道以填充日期字段，如here所述。或者，您必须编写一个定制的parse filter以便将日期放入元数据中，然后在配置中使用indexer.md.mapping对其进行索引。

简化此操作可能会很有用，请随时在Github上打开一个问题(甚至更好地贡献一些代码)，以便ES索引器可以检查配置以获取指示当前日期存储位置的字段名称，例如es.now.field。

关于elasticsearch - 使用StormCrawler(和Elasticsearch)将字段添加到已爬网内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59443971/

上一篇：javascript - 如何防止在页面加载时执行JavaScript函数？

下一篇：php - 在html标签<audio>中回显字符串

java - 使用maven将storm和cassandra打包成可执行jar

elasticsearch 跳过完成建议重复项

cassandra - ElasticSearch + Cassandra 的实用限制

java - Crawler4j 在 url 重定向中将 null 作为parentURL，将零作为parentDocID

Golang Web Crawler解决方案，2个数据竞争，退出状态66

python - Scrapy 中 requests.seen 文件中存储的值是什么？

types - 按类型限制 ElasticSearch 聚合？

C#用 Elasticsearch 计算地理距离(nest 2)

hbase - 从 Apache Storm bolt 在 HBase 中插入和删除值的方法