将使用Apache Nutch v1.3
仅从网页中提取某些特定内容。检查了 parse-html 插件。似乎它使用 tagoup 或 nekohtml 规范每个 html 页面。这很好。我只需要提取 <span class='xxx'>
内的文本和<span class='yyy'>
网页上的元素。如果提取的文本保存到不同的字段中(例如 content_xxx
、 content_yyy
),那就太好了。
我的问题是:我应该编写自己的插件还是可以使用某种标准方式来完成?
最好的方法是在规范化的网页上应用 XSLT 并获得结果。这可能吗?
最佳答案
构建您自己的 ParsingFilter 和 IndexingFilter 很容易。 Nutch 为你提供了 DOM 文档,你只需要遍历并搜索你的 div 即可。然后,您只需将新字段添加到索引和架构中即可完成。
有一些关于如何执行此操作的示例:
http://wiki.apache.org/nutch/HowToMakeCustomSearch
http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html
祝你好运
关于solr - Apache Nutch 仅索引部分页面内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6630199/