elasticsearch - 我可以从 Stormcrawler 获得哪些值/字段?

标签 elasticsearch apache-tika stormcrawler elasticsearch-7

我正在使用 Stormcrawler 1.15、ElasticSearch 7.5,并按照本教程启动并运行 SC:https://www.youtube.com/watch?v=KTerugU12TY

在我的 crawler-conf.yaml 中,我有:

  # indexer.md.filter: "someKey=aValue"
  indexer.url.fieldname: "url"
  indexer.text.fieldname: "content"
  indexer.canonical.name: "canonical"
  indexer.md.mapping:
  - parse.title=title
  - parse.keywords=keywords
  - parse.description=description
  - domain=domain

这表明我已经有了描述和关键字,但是到目前为止,我在“内容”索引的文档中获得了以下字段:url、内容、域、标题。例如:
{
  "_index": "content",
  "_type": "_doc",
  "_id": "c31104689b7ab4e8152f70b755049e7060da3457f06d64993667df28f7be6811",
  "_score": 1,
  "_source": {
    "content": "Startseite Gesetze / Verordnungen Aktualitätendienst [...]",
    "url": "http://www.gesetze-im-internet.de/markeng_8bek_00-03-27/index.html",
    "domain": "gesetze-im-internet.de",
    "title": "MarkenG§8Bek 00-03-27 - nichtamtliches Inhaltsverzeichnis"
  }
}

但我想获得更多信息,例如关键字、描述、创建日期、抓取日期。甚至可能是一个总结。

我怎样才能得到这些?

我可以使用此爬虫获得哪些其他值/字段?

我怎样才能在 ES 中获得它们?

我听说有一种方法可以让 SC 与 tika 一起更好地解析 html 和 pdf,这样也许我可以从爬取的页面中获取更多的数据和元数据。但我仍然不知道该怎么做。这方面的指南/教程会很好。

最佳答案

确保解析过滤器正确配置为 here .可以配置或扩展爬虫以提取几乎所有内容,请参阅 WIKI获取现有解析过滤器的列表。

与 JSOUP 相比,Tika 模块在 HTML 文档方面不会做得更好,但可以处理其他 mime 类型。请参阅该模块的 README 以了解如何使用它。

关于elasticsearch - 我可以从 Stormcrawler 获得哪些值/字段?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59445089/

相关文章:

linux - 如何在同一台服务器上将多个 Elasticsearch (2.2)节点作为进程运行

elasticsearch - Sphinx:如何更改默认排名方法?

elasticsearch - 无法通过 Storm 爬虫从 Elasticsearch 中爬取数据

elasticsearch - 如何从Elasticsearch过滤stromcrawler数据

elasticsearch - Elasticsearch 过滤器

java - Playframework 2.x Apache Tika 问题

java - 如何查看文件内容是否真的像

java - 从 DataHandler 检测 MIME 类型

java - StormCrawler 在爬行完一个域后执行操作

search - 如何配置Elasticsearch以匹配数字或 “spelled-out”数字?