arrays - 字符串数组距离的良好指标

我必须使用数组、S & T、包含单词(小写、修剪、没有变音符号)。字数可以不同。 (大部分数据都是一种专有名词，比较短(<5))

我需要找到一个好的指标(及其实现，甚至可能是研究论文)来计算这些数组的相似度水平

目前的一些想法:

还有其他想法吗？

最佳答案

对我来说，它看起来像是使用bag-of-words 模型对文档建模 http://en.wikipedia.org/wiki/Bag-of-words_model

根据您的应用，您可以使用不同的标准来比较两个 bag-of-words 特征向量，就像您在应用中所说的那样。此外，还有基于学习不同单词/句子之间静态关系的模型，例如主题模型http://en.wikipedia.org/wiki/Topic_model

关于arrays - 字符串数组距离的良好指标，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12967329/

相关文章：

apache-flex - 如何使Flex文本控件自动换行