Python:聚类搜索引擎关键字
你好, 我有一个 CSV,最多 20,000 行(我有 100,000 多个不同的网站),每行包含一个引用关键字(即有人在搜索引擎中输入的关键字以查找相关网站),以及多次访问。
我要做的是将这些关键字聚类成“相似含义”的聚类,并创建聚类的层次结构(按照每个聚类的搜索总数的总和排列)。
示例集群 - “女装” - 理想情况下包含以下几行关键字: 女装,1000 女装,300 女装,50 女装, 6 女装,2
我可以使用类似 Python 自然语言工具包的工具:http://www.nltk.org/和 WordNet,但是,我猜测对于某些网站,引用关键字将是 WordNet 一无所知的词/短语。例如,如果该网站是名人网站,WordNet 不太可能知道“Lady Gaga”的任何信息,如果该网站是新闻网站,情况更糟。
因此,我也猜测解决方案必须是一个看起来只使用源数据本身的解决方案。
我的查询与在 How to cluster search engine keywords? 提出的查询非常相似,只是我正在寻找开始的地方,但使用 Python 而不是 Java。
我也想知道 Google Predict 和/或 Google Refine 是否有用。
无论如何,欢迎提出任何想法/建议,
谢谢, C
最佳答案
我非常喜欢 Woosh。它是一个纯 Python 搜索引擎,除其他外,还提供那种功能。检查一下。
http://packages.python.org/Whoosh/index.html
您正在寻找的功能称为“分面搜索结果”
http://packages.python.org/Whoosh/facets.html
埃尔南
关于Python:聚类搜索引擎关键词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5457993/