java - 用于抓取的 Nutch 正则表达式

我正在使用 Apache Nutch 来抓取网页。当我搜索特定名称时，我想抓取网页，例如如果我搜索比尔盖茨，我想获得该搜索结果的结果链接。我有像

这样的网址

www.mysite.com/search?name=bill+gates

但在爬行时，它不再显示要获取的网址。实际上它没有获取任何结果。

是否有任何选项可以抓取该页面？我已添加 regex-urlfilter.txt 以接受所有内容。我将如何抓取链接？提前致谢。

最佳答案

在我的内存中，nutch 有一个额外的设置用于切断 url 参数，例如 ?q=bill+gates。我认为此设置位于 automaton-urlfilter.txt 中:

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

所以你必须改变这一行。

希望能帮到你

关于java - 用于抓取的 Nutch 正则表达式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16711801/