我是数据科学新手。这可能是一个愚蠢的问题,但只是想了解意见并确认我是否可以很好地改进它。 我有一个问题,如何从数据库中获取最常见/最常见的 5 个句子。我知道我可以将所有数据(句子)收集到一个列表中并使用 Counter 库 - 我可以获取最常出现的 5 个句子,但我有兴趣知道是否存在任何算法(ML/DL/NLP)用于这样的要求。所有句子均由用户给出。我需要知道他的前 5 个(最常出现/最频繁)句子(请不是短语)!!
句子示例 -
“欢迎来到极客世界”
“创建此门户是为了提供写得好的主题”
“如果您喜欢 Geeks for Geeks 并愿意做出贡献”
“在 geeksforgeeks org 上发表文章,查看您的文章出现在”
“在 geeksforgeeks org 上发表文章,查看您的文章出现在”(第二次出现)
“Geeks for Geeks 主页并帮助成千上万的其他 Geeks。”
注意:我的数据库中的所有句子都是不同的(上下文明智,也没有重复)。这只是我的要求的一个例子。
提前致谢。
最佳答案
我建议您从 sentence embeddings 开始。简而言之,它返回给定句子的向量,并粗略地表示该句子的含义。
假设您的数据库中有 n 个句子,并且您找到了每个句子的句子嵌入,因此现在您有 n 个向量。
获得向量后,您可以使用降维技术,例如 t-sne以 2 或 3 维的方式可视化您的句子。在此可视化中,具有相似含义的句子理想应该彼此接近。这可以帮助您找出最常见且含义相近的句子。
我认为一个问题是,由于含义本质上是主观的,因此仍然很难为句子的含义划定界限。您可能需要在我上面描述的过程中添加一些启发式方法。
关于machine-learning - 检索前 5 个句子 - 算法(如果存在),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50987088/