我已经安装了 nutch 和 solr 来抓取网站并在其中进行搜索;如您所知,我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中。(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或无论如何)像这样:
<div id=something>
me specific tag
</div>
实际上,我想在此页面中向 solr(某物)添加一个具有“我的特定标签”值的字段。
任何的想法?
最佳答案
我为您想要的类似内容制作了自己的插件。
用于将 NutchDocument 映射到 SolrDocument 的配置文件位于 $NUTCH_HOME/conf/ solrindex-mapping.xml .您可以在此处添加自己的标签。但是您仍然必须在某处填写自己的标签。
以下是插件的一些提示:
page.putToMetadata(new Utf8("yourKEY"), ByteBuffer.wrap(YourByteArrayParsedFromMetaData));
doc.add("your_specific_tag", value);
字段名称="your_specific_tag"type="string"stored="true"indexed="true"
field dest="your_specific_tag"source="your_specific_tag"
关于solr - 如何使用nutch和索引特定标签解析html到solr?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12338967/