正在解决这个问题,我需要根据他们正在寻找的内容对搜索短语进行聚类(现在,我们假设他们只寻找地方,例如书店、超市等)
“在哪里可以找到芝士蛋糕?”
可以概率地聚集到“甜点”、“餐厅”……
“我在哪里可以购买杂货?”
可以概率地聚集到“超市”、“蔬菜”……
首先假设一组搜索短语可以分类的内容已经存在。
我研究了主题建模,但我觉得我可能走错了方向。任何关于如何开始/研究什么的建议都会非常有帮助。
非常感谢。
最佳答案
主题建模无疑提供了一种可能的解决方案。从大型语料库中归纳出一个主题模型,尽可能代表您正在索引和搜索的文本。然后将每个查询表示为给定查询的主题的后验。如果您想获得查询的聚类,则可以在这个缩减集上执行此操作,或者如果您正在执行 IR,则可以使用结果向量而不是原始词袋。
如果这不是您想要的,您能详细说明一下问题吗?您希望如何处理集群查询?
关于machine-learning - 聚类搜索短语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13300840/