solr - Apache Nutch 仅索引部分页面内容

标签 solr nutch

将使用Apache Nutch v1.3仅从网页中提取某些特定内容。检查了 parse-html 插件。似乎它使用 tagoup 或 nekohtml 规范每个 html 页面。这很好。我只需要提取 <span class='xxx'> 内的文本和<span class='yyy'>网页上的元素。如果提取的文本保存到不同的字段中(例如 content_xxx 、 content_yyy )，那就太好了。我的问题是:我应该编写自己的插件还是可以使用某种标准方式来完成？

最好的方法是在规范化的网页上应用 XSLT 并获得结果。这可能吗？

最佳答案

构建您自己的 ParsingFilter 和 IndexingFilter 很容易。 Nutch 为你提供了 DOM 文档，你只需要遍历并搜索你的 div 即可。然后，您只需将新字段添加到索引和架构中即可完成。

有一些关于如何执行此操作的示例:

http://wiki.apache.org/nutch/HowToMakeCustomSearch

http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html

祝你好运

关于solr - Apache Nutch 仅索引部分页面内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6630199/