我正在使用 Apache Nutch 来抓取网页。当我搜索特定名称时,我想抓取网页,例如 如果我搜索比尔盖茨,我想获得该搜索结果的结果链接。我有像
这样的网址www.mysite.com/search?name=bill+gates
但在爬行时,它不再显示要获取的网址。实际上它没有获取任何结果。
是否有任何选项可以抓取该页面?我已添加 regex-urlfilter.txt 以接受所有内容。 我将如何抓取链接?提前致谢。
最佳答案
在我的内存中,nutch 有一个额外的设置用于切断 url 参数,例如 ?q=bill+gates。 我认为此设置位于 automaton-urlfilter.txt 中:
# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*
所以你必须改变这一行。
希望能帮到你
关于java - 用于抓取的 Nutch 正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16711801/