machine-learning - 检索前 5 个句子 - 算法(如果存在)

我是数据科学新手。这可能是一个愚蠢的问题，但只是想了解意见并确认我是否可以很好地改进它。我有一个问题，如何从数据库中获取最常见/最常见的 5 个句子。我知道我可以将所有数据(句子)收集到一个列表中并使用 Counter 库 - 我可以获取最常出现的 5 个句子，但我有兴趣知道是否存在任何算法(ML/DL/NLP)用于这样的要求。所有句子均由用户给出。我需要知道他的前 5 个(最常出现/最频繁)句子(请不是短语)!!

句子示例 -

“欢迎来到极客世界”

“创建此门户是为了提供写得好的主题”

“如果您喜欢 Geeks for Geeks 并愿意做出贡献”

“在 geeksforgeeks org 上发表文章，查看您的文章出现在”

“在 geeksforgeeks org 上发表文章，查看您的文章出现在”(第二次出现)

“Geeks for Geeks 主页并帮助成千上万的其他 Geeks。”

注意:我的数据库中的所有句子都是不同的(上下文明智，也没有重复)。这只是我的要求的一个例子。

提前致谢。

最佳答案

我建议您从 sentence embeddings 开始。简而言之，它返回给定句子的向量，并粗略地表示该句子的含义。

假设您的数据库中有 n 个句子，并且您找到了每个句子的句子嵌入，因此现在您有 n 个向量。

获得向量后，您可以使用降维技术，例如 t-sne以 2 或 3 维的方式可视化您的句子。在此可视化中，具有相似含义的句子理想应该彼此接近。这可以帮助您找出最常见且含义相近的句子。

我认为一个问题是，由于含义本质上是主观的，因此仍然很难为句子的含义划定界限。您可能需要在我上面描述的过程中添加一些启发式方法。

关于machine-learning - 检索前 5 个句子 - 算法(如果存在)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50987088/

machine-learning - 检索前 5 个句子 - 算法(如果存在)

上一篇：apache-spark - 将多个 SparkML 管道应用于单个 DataFrame

下一篇：android-studio - java.lang.IllegalArgumentException : No OpKernel was registered to support Op 'GatherV2' with these attrs.