java - 如何比较两段文字?

标签 java string compare md5 paragraph

我需要删除包含很多段落的文本中的重复段落。

我使用类 java.security.MessageDigest 中的函数来计算每个段落的 MD5 哈希值,然后将这些哈希值添加到一个 Set 中。

如果 add() 成功,则表示最新的段落是重复的。

这种方式有没有风险?

除了String.equals(),还有其他方法吗?

最佳答案

在散列之前,您可以规范化段落,例如删除标点符号,转换为小写并删除额外的空格。 归一化后,仅存在差异的段落将获得相同的哈希值。

关于java - 如何比较两段文字?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15382347/

相关文章:

java - 如何阻止 cron 作业创建 attach_pid 文件?

java - 检索键值对作为映射

mysql - 比较时间戳与 current_timestamp 在 mysql 中不起作用

java - ZipInputStream 和 JarInputStream 的 ZipEntry 大小不一致

java - 在 grizzly 的根目录下提供 index.html 页面

java - 使用字符串指向某个列表(或数组)

Java 正则表达式 : String Formatting

ios - UITextField .text 属性总是返回一个空字符串

Python写入csv,一旦检查字符串是否在csv中

mysql - 在mysql中搜索存储在varchar中的日期之间的数据