machine-learning - 比较文本文档含义的最佳方法?

标签 machine-learning nlp artificial-intelligence text-mining

我正在尝试找到使用人工智能和机器学习方法来比较两个文本文档的最佳方法。我使用了 TF-IDF-Cosine 相似度和其他相似度度量,但这会在单词(或 n-gram)级别上比较文档。

我正在寻找一种方法,可以让我比较文档的含义。最好的方法是什么?

最佳答案

您应该开始阅读有关 word2vec 模型的内容。 使用gensim ,得到pretrained model谷歌的。 要对文档进行矢量化,请使用 Doc2vec()功能。 获取所有文档的向量后,使用一些距离度量(例如余弦距离或欧几里得距离)进行比较。

关于machine-learning - 比较文本文档含义的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49256079/

相关文章:

python - Word2VecKeyedVectors 的对象没有属性 'index_to_key'

python - 如何使用 NLTK RegexpParser Chunk 在 Python 中提取 POS_tagged 单词的特殊字符

machine-learning - keras - flow_from_directory 函数 - target_size 参数

python - NLTK:如何根据句子图提取信息?

apache-spark - Apache Spark 是否不如 Scikit Learn 准确?

machine-learning - 使用模型来比较名字和姓氏

python - Spacy 3 命名实体识别的置信度评分

java - 我正在学习人工智能,我可以实现什么游戏来将其付诸实践?

machine-learning - 关于在 kdd cup 2012 track 2 中使用 AUC 指标,真的合理吗?

python - 当 fit_intercept=False 时,为什么 Sklearn R 平方与 statsmodels 不同?