elasticsearch - 如何使用 StormCrawler 将网站内容存储在状态索引中?

标签 elasticsearch web-crawler kibana stormcrawler

我们正在尝试将网页的内容存储在 中状态索引 ,以及 url、状态和元数据信息。

我们尝试编辑 ES_IndexInit.sh 并在“状态”映射部分添加下一个属性:

"content": {
                "type": "text",
                "index": "true",
                "store": true
            }

but we can't see anything in Kibana after crawling process.

我们的猜测是,我们将不得不更改 Storm crawler 项目中的 Java 源代码,但不知道如何进行。

任何见解都会非常有帮助。先感谢您。

最佳答案

内容通常存储在单独的索引中,状态索引主要用于调度 URL 并保存其元数据。它也可能对性能产生影响。

如果这是您想要继续的方式,您可以编写一个自定义 ParseFilter 来将文本内容存储在元数据中。像往常一样,您需要将用于存储文本的 key 添加到列出要保留在状态索引中的元数据的配置条目 (metadata.persist)

关于elasticsearch - 如何使用 StormCrawler 将网站内容存储在状态索引中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48297420/

相关文章:

linux - 我在Linux中安装了kibana,但无法正常工作

elasticsearch - Elasticsearch 日期范围查询

elasticsearch - Elasticsearch 批量API,管道和Geo IP

geolocation - ElasticSearch 脚本字段返回不正确的经度值

database - 弹性 5.5 中的刻面

python - Scrapy CrawlerRunner : Output missing

c# - 什么样的网络主机可以让你在上面运行爬虫?

elasticsearch - 如何在 Jest 中传递多个节点地址(Elasticsearch)

elasticsearch - kibana没有按时间分组

javascript - 抓取通过 JavaScript 呈现的网页。 PhantomJs 或任何其他工具?