solr - Apache Nutch 仅索引部分页面内容

标签 solr nutch

将使用Apache Nutch v1.3仅从网页中提取某些特定内容。检查了 parse-html 插件。似乎它使用 tagoup 或 nekohtml 规范每个 html 页面。这很好。我只需要提取 <span class='xxx'> 内的文本和<span class='yyy'>网页上的元素。如果提取的文本保存到不同的字段中(例如 content_xxxcontent_yyy ),那就太好了。 我的问题是:我应该编写自己的插件还是可以使用某种标准方式来完成?

最好的方法是在规范化的网页上应用 XSLT 并获得结果。这可能吗?

最佳答案

构建您自己的 ParsingFilter 和 IndexingFilter 很容易。 Nutch 为你提供了 DOM 文档,你只需要遍历并搜索你的 div 即可。然后,您只需将新字段添加到索引和架构中即可完成。

有一些关于如何执行此操作的示例:

http://wiki.apache.org/nutch/HowToMakeCustomSearch

http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html

祝你好运

关于solr - Apache Nutch 仅索引部分页面内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6630199/

相关文章:

java - 从 cassandra 2 查询 nutch 2 表结果看起来不正确

mongodb - 错误 : while start Apache nutch with mongodb

java - 将多个 SOLR 字段合并为一个

Solr - 如何获取所有分面字段的值?

hadoop - hadoop map task 超时

apache - 坚果索引元数据未索引

apache - 如何在 apache solr lucene 中的 json 文档中搜索

solr - 在Solr中搜索日期范围或null/no字段

ruby-on-rails-3 - 如何在 sunspot solr 中进行简单的 bool 查询

hadoop - Nutch FetchData 作业太慢