arrays - 字符串数组距离的良好指标

标签 arrays algorithm text language-agnostic levenshtein-distance

我必须使用数组、S & T、包含单词(小写、修剪、没有变音符号)。字数可以不同。 (大部分数据都是一种专有名词,比较短(<5))

我需要找到一个好的指标(及其实现,甚至可能是研究论文)来计算这些数组的相似度水平

目前的一些想法:

  • 对出现在两个数组中的所有词进行评分
  • 对两个数组中出现在同一位置的所有单词进行评分
  • 对最长的公共(public)序列进行评分
  • 以上所有+考虑索引的相对位置(开始时更重要)
  • 某种类型的 levensthein(插入/删除计数)使用单词而不是字符

还有其他想法吗?

最佳答案

对我来说,它看起来像是使用bag-of-words 模型对文档建模 http://en.wikipedia.org/wiki/Bag-of-words_model

根据您的应用,您可以使用不同的标准来比较两个 bag-of-words 特征向量,就像您在应用中所说的那样。此外,还有基于学习不同单词/句子之间静态关系的模型,例如主题模型http://en.wikipedia.org/wiki/Topic_model

关于arrays - 字符串数组距离的良好指标,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12967329/

相关文章:

apache-flex - 如何使Flex文本控件自动换行

javascript - 如何使用吐出和拼接递归更新数组?

arrays - 调整图像大小并放置在 CrystalReports BlobField 的字节数组中

algorithm - 字符串编辑距离算法混淆

javascript - 应用折扣后查找购物车最低价格的算法

c - getchar() 和计算 C 中的句子和单词

python - 合并2个重叠的句子

python - 索引错误: list assignment index out of range 'xxx' ;'xxx'

javascript - 递归创建嵌套数组

algorithm - 匹配最长的前导子串