java - 用于抓取的 Nutch 正则表达式

标签 java web-crawler nutch

我正在使用 Apache Nutch 来抓取网页。当我搜索特定名称时,我想抓取网页,例如 如果我搜索比尔盖茨,我想获得该搜索结果的结果链接。我有像

这样的网址
www.mysite.com/search?name=bill+gates

但在爬行时,它不再显示要获取的网址。实际上它没有获取任何结果。

是否有任何选项可以抓取该页面?我已添加 regex-urlfilter.txt 以接受所有内容。 我将如何抓取链接?提前致谢。

最佳答案

在我的内存中,nutch 有一个额外的设置用于切断 url 参数,例如 ?q=bill+gates。 我认为此设置位于 automaton-urlfilter.txt 中:

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

所以你必须改变这一行。

希望能帮到你

关于java - 用于抓取的 Nutch 正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16711801/

相关文章:

java - Android应用程序: scanning for music files in specified folders runs slowly and hangs.

java - 解析特定的文本文件java

java - 可以使用 JAXB(或 JAXB + StAX)编码 XML 的一部分吗?

apache - Hbase ipc.RpcServer responseTooSlow 问题和区域服务器关闭

hadoop - 在 HDP 上编译错误 Nutch

java - 从套接字 inputStream read() 返回的 Int 中获取字节

python - 在Scrapy中创建可编辑的CrawlSpider规则

java - 抓取网页编码问题-以字节为单位的负值

java - 修改Nutch爬虫解析页面并从爬取的页面中获取某些数据

hadoop - Nutch 2.3.1在 yarn 2.7.1上的错误