regex - Nutch 跳过包含 # 的 URL

我正在学习 Nutch。我已经设置了 nutch 并开始爬行网站。但我无法弄清楚的一件事是如何限制包含#的url，因为由于这个#而发生了多次重复。我已经检查了 regex-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.
-[*!@]

如果我在概念上将 # 添加到这一行，这应该可以工作，但在添加 # 之后它就不起作用了。是因为#用于注释行吗？如果是的话如何修复。

最佳答案

Escape使用反斜杠的 #。

关于regex - Nutch 跳过包含 # 的 URL，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28520479/