machine-learning - 检索前 5 个句子 - 算法(如果存在)

标签 machine-learning nlp deep-learning data-science

我是数据科学新手。这可能是一个愚蠢的问题,但只是想了解意见并确认我是否可以很好地改进它。 我有一个问题,如何从数据库中获取最常见/最常见的 5 个句子。我知道我可以将所有数据(句子)收集到一个列表中并使用 Counter 库 - 我可以获取最常出现的 5 个句子,但我有兴趣知道是否存在任何算法(ML/DL/NLP)用于这样的要求。所有句子均由用户给出。我需要知道他的前 5 个(最常出现/最频繁)句子(请不是短语)!!

句子示例 -

“欢迎来到极客世界”

“创建此门户是为了提供写得好的主题”

“如果您喜欢 Geeks for Geeks 并愿意做出贡献”

“在 geeksforgeeks org 上发表文章,查看您的文章出现在”

“在 geeksforgeeks org 上发表文章,查看您的文章出现在”(第二次出现)

“Geeks for Geeks 主页并帮助成千上万的其他 Geeks。”

注意:我的数据库中的所有句子都是不同的(上下文明智,也没有重复)。这只是我的要求的一个例子。

提前致谢。

最佳答案

我建议您从 sentence embeddings 开始。简而言之,它返回给定句子的向量,并粗略地表示该句子的含义。

假设您的数据库中有 n 个句子,并且您找到了每个句子的句子嵌入,因此现在您有 n 个向量。

获得向量后,您可以使用降维技术,例如 t-sne以 2 或 3 维的方式可视化您的句子。在此可视化中,具有相似含义的句子理想应该彼此接近。这可以帮助您找出最常见且含义相近的句子。

我认为一个问题是,由于含义本质上是主观的,因此仍然很难为句子的含义划定界限。您可能需要在我上面描述的过程中添加一些启发式方法。

关于machine-learning - 检索前 5 个句子 - 算法(如果存在),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50987088/

相关文章:

machine-learning - 深度学习图像模型考虑了先前的输出

python - 使用 GridSearchCV best_params_ 给出了糟糕的结果

machine-learning - 从产品评论中提取特征

python - Keras,我训练模型后如何预测?

machine-learning - 2.3 Pytorch BCEloss 和我自己的 "log"计算的比值

machine-learning - 快速 Q 学习

python - 在 python 中使用阿拉伯语 WordNet 作为同义词?

android - Android 机器学习库

python - 使用 scikit-learn 从文档集中查找仅选定单词的 Tf-Idf 分数

machine-learning - 如何同时使用交叉验证和提前停止?