regex - Nutch 跳过包含 # 的 URL

标签 regex nutch

我正在学习 Nutch。我已经设置了 nutch 并开始爬行网站。但我无法弄清楚的一件事是如何限制包含#的url,因为由于这个#而发生了多次重复。 我已经检查了 regex-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.
-[*!@] 

如果我在概念上将 # 添加到这一行,这应该可以工作,但在添加 # 之后它就不起作用了。是因为#用于注释行吗?如果是的话如何修复。

最佳答案

Escape使用反斜杠的 #

关于regex - Nutch 跳过包含 # 的 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28520479/

相关文章:

hadoop - Hadoop HBase伪模式-RegionServer在一段时间后会断开连接

nutch - 关于使用 nutch 抓取短网址

hadoop - 同时处理与主机的多个连接

ruby - 将长空格缩减为单个字符

regex - git-svn clone 忽略文件夹的路径正则表达式

javascript - 如何在javascript中将多个单词替换为单个单词?

Javascript 找不到我的 mod_rewrite 查询字符串!

Java 正则表达式。从不包括特定字符序列的文本中提取组。 (它的工作方式类似于向后匹配)

hadoop - Nutch 2.3.1 只爬取种子URL

hadoop - 在 HDP 上编译错误 Nutch