solr - 如何使用nutch和索引特定标签解析html到solr?

标签 solr nutch apache-tika

我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索;如您所知,我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中。(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或无论如何)像这样:

<div id=something>
      me specific tag
</div>

实际上,我想在此页面中向 solr(某物)添加一个具有“我的特定标签”值的字段。

任何的想法?

最佳答案

我为您想要的类似内容制作了自己的插件。
用于将 NutchDocument 映射到 SolrDocument 的配置文件位于 $NUTCH_HOME/conf/ solrindex-mapping.xml .您可以在此处添加自己的标签。但是您仍然必须在某处填写自己的标签。

以下是插件的一些提示:

  • 阅读 http://wiki.apache.org/nutch/WritingPluginExample ,在这里您可以找到如何非常简单地制作您的插件
  • 在您的插件中扩展 解析过滤器 索引过滤器。
  • 在 YourParseFilter 中,您可以使用 NodeWalker 找到您的特定 div
  • 您解析的信息像这样放入页面元数据中
    page.putToMetadata(new Utf8("yourKEY"), ByteBuffer.wrap(YourByteArrayParsedFromMetaData));
  • 在 YourIndexingFilter 中,将页面 (page.getMetadata) 中的元数据添加到 NutchDocument
    doc.add("your_specific_tag", value);
  • 最重要的!!!!!
  • your_specific_tag 到以下文件:
  • Solr 配置文件 schema.xml (并重新启动 Solr)

  • 字段名称="your_specific_tag"type="string"stored="true"indexed="true"
  • 纳奇 配置文件 schema.xml (不知道是不是真的需要)
  • 纳奇 配置文件 solrindex-mapping.xml

  • field dest="your_specific_tag"source="your_specific_tag"

    关于solr - 如何使用nutch和索引特定标签解析html到solr?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12338967/

    相关文章:

    Java RTF 可以导入、编辑和导出吗?

    solr - tika solr 集成

    pdf - Solr ExtractingRequestHandler为pdf文档提供空内容

    ruby-on-rails - 我是否需要去除标签以改进搜索?

    java - 如何在 Cpanel 管理的服务器上安装 java?

    linux - 将 nutch 数据索引到 solr 时出错

    elasticsearch - Elasticsearch 2.4.0与Nut 1.12的兼容性

    apache - Nutch无法删除重复项(在一个Solr核心上,但在另一个核心上)

    mysql - Solr - 模式帮助(产品属性)

    java - 配置solr和sql server时出现空指针异常