machine-learning - 聚类搜索短语

标签 machine-learning nlp classification

正在解决这个问题,我需要根据他们正在寻找的内容对搜索短语进行聚类(现在,我们假设他们只寻找地方,例如书店、超市等)

“在哪里可以找到芝士蛋糕?”
可以概率地聚集到“甜点”、“餐厅”……

“我在哪里可以购买杂货?”
可以概率地聚集到“超市”、“蔬菜”……

首先假设一组搜索短语可以分类的内容已经存在。

我研究了主题建模,但我觉得我可能走错了方向。任何关于如何开始/研究什么的建议都会非常有帮助。

非常感谢。

最佳答案

主题建模无疑提供了一种可能的解决方案。从大型语料库中归纳出一个主题模型,尽可能代表您正在索引和搜索的文本。然后将每个查询表示为给定查询的主题的后验。如果您想获得查询的聚类,则可以在这个缩减集上执行此操作,或者如果您正在执行 IR,则可以使用结果向量而不是原始词袋。

如果这不是您想要的,您能详细说明一下问题吗?您希望如何处理集群查询?

关于machine-learning - 聚类搜索短语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13300840/

相关文章:

machine-learning - 梯度下降似乎失败了

machine-learning - Shogun 的 Libsvm 文件格式

python - 如何一步一步从预测概率中获取预测类别标签?

python - 决定包含分类变量和数值变量的数据集的聚类算法

java - 如何打印依赖关系图的一部分

python - sumy LexRankSummarizer() 输出文本的正确格式

java - 如何使用 WordNet 或与 wordnet 相关的实现基于类别的文本标记?

machine-learning - 增加 J48 树尺寸 weka

python - 按形状和大小分类

language-agnostic - 从英语文本中提取短语动词的库