我必须使用数组、S & T、包含单词(小写、修剪、没有变音符号)。字数可以不同。 (大部分数据都是一种专有名词,比较短(<5))
我需要找到一个好的指标(及其实现,甚至可能是研究论文)来计算这些数组的相似度水平
目前的一些想法:
- 对出现在两个数组中的所有词进行评分
- 对两个数组中出现在同一位置的所有单词进行评分
- 对最长的公共(public)序列进行评分
- 以上所有+考虑索引的相对位置(开始时更重要)
- 某种类型的 levensthein(插入/删除计数)使用单词而不是字符
还有其他想法吗?
最佳答案
对我来说,它看起来像是使用bag-of-words 模型对文档建模 http://en.wikipedia.org/wiki/Bag-of-words_model
根据您的应用,您可以使用不同的标准来比较两个 bag-of-words 特征向量,就像您在应用中所说的那样。此外,还有基于学习不同单词/句子之间静态关系的模型,例如主题模型http://en.wikipedia.org/wiki/Topic_model
关于arrays - 字符串数组距离的良好指标,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12967329/