elasticsearch - 使用StormCrawler(和Elasticsearch)将字段添加到已爬网内容

标签 elasticsearch web-crawler apache-storm stormcrawler

我已经按照以下教程使用stormcrawler进行内容爬网,然后将其存储在elasticsearch中:https://www.youtube.com/watch?v=KTerugU12TY。但是,我想将每个文档的检索日期添加到其中。谁能告诉我该怎么做?

通常,如何更改已爬网内容的字段?

提前致谢

最佳答案

一种选择是在Elasticsearch中创建一个摄取管道以填充日期字段,如here所述。或者,您必须编写一个定制的parse filter以便将日期放入元数据中,然后在配置中使用indexer.md.mapping对其进行索引。

简化此操作可能会很有用,请随时在Github上打开一个问题(甚至更好地贡献一些代码),以便ES索引器可以检查配置以获取指示当前日期存储位置的字段名称,例如es.now.field。

关于elasticsearch - 使用StormCrawler(和Elasticsearch)将字段添加到已爬网内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59443971/

相关文章:

java.lang.NoClassDefFoundError : org/json/simple/JSONValue at storm. kafka.DynamicBrokersReader

java - 使用maven将storm和cassandra打包成可执行jar

elasticsearch 跳过完成建议重复项

cassandra - ElasticSearch + Cassandra 的实用限制

java - Crawler4j 在 url 重定向中将 null 作为parentURL,将零作为parentDocID

Golang Web Crawler解决方案,2个数据竞争,退出状态66

python - Scrapy 中 requests.seen 文件中存储的值是什么?

types - 按类型限制 ElasticSearch 聚合?

C#用 Elasticsearch 计算地理距离(nest 2)

hbase - 从 Apache Storm bolt 在 HBase 中插入和删除值的方法