我正在尝试找到使用人工智能和机器学习方法来比较两个文本文档的最佳方法。我使用了 TF-IDF-Cosine 相似度和其他相似度度量,但这会在单词(或 n-gram)级别上比较文档。
我正在寻找一种方法,可以让我比较文档的含义。最好的方法是什么?
最佳答案
您应该开始阅读有关 word2vec 模型的内容。 使用gensim ,得到pretrained model谷歌的。 要对文档进行矢量化,请使用 Doc2vec()功能。 获取所有文档的向量后,使用一些距离度量(例如余弦距离或欧几里得距离)进行比较。
关于machine-learning - 比较文本文档含义的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49256079/