<分区>
我正在从事与垃圾邮件过滤相关的项目。你们中的许多人可能都知道垃圾邮件发送者使用的这种技术:
- 将“items”写成“|tem”(管道而不是 i)
- $ale 而不是 sale
- h0t 而不是热(零而不是字母“o”)
等等
我想知道是否有一个数据库可用于使用特殊符号的所有这些可能的单词变体?或者有人知道解决这个问题的好策略吗?
目前我所做的是,我只是将“@”替换为“a”、“|”用'i','$'用's'等等。我需要你对这个问题的看法!请帮忙。
<分区>
我正在从事与垃圾邮件过滤相关的项目。你们中的许多人可能都知道垃圾邮件发送者使用的这种技术:
等等
我想知道是否有一个数据库可用于使用特殊符号的所有这些可能的单词变体?或者有人知道解决这个问题的好策略吗?
目前我所做的是,我只是将“@”替换为“a”、“|”用'i','$'用's'等等。我需要你对这个问题的看法!请帮忙。
最佳答案
您似乎以一条消息为起点并试图对其进行转换。
另一种方法可能是先定义一个可能会更改的单词列表(sale、viagra 等),然后生成所有可能的相似单词。作为相似性的度量,您可以采用 Levenshtein 距离。
关于java - 使用特殊符号的单词变体集合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21237221/