我正在学习 Nutch。我已经设置了 nutch 并开始爬行网站。但我无法弄清楚的一件事是如何限制包含#的url,因为由于这个#而发生了多次重复。 我已经检查了 regex-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc.
-[*!@]
如果我在概念上将 # 添加到这一行,这应该可以工作,但在添加 # 之后它就不起作用了。是因为#用于注释行吗?如果是的话如何修复。
最佳答案
Escape使用反斜杠的 #
。
关于regex - Nutch 跳过包含 # 的 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28520479/