Python:聚类搜索引擎关键词

标签 python text nlp cluster-analysis keyword

Python:聚类搜索引擎关键字

你好，我有一个 CSV，最多 20,000 行(我有 100,000 多个不同的网站)，每行包含一个引用关键字(即有人在搜索引擎中输入的关键字以查找相关网站)，以及多次访问。

我要做的是将这些关键字聚类成“相似含义”的聚类，并创建聚类的层次结构(按照每个聚类的搜索总数的总和排列)。

示例集群 - “女装” - 理想情况下包含以下几行关键字: 女装，1000 女装，300 女装，50 女装, 6 女装，2

我可以使用类似 Python 自然语言工具包的工具:http://www.nltk.org/和 WordNet，但是，我猜测对于某些网站，引用关键字将是 WordNet 一无所知的词/短语。例如，如果该网站是名人网站，WordNet 不太可能知道“Lady Gaga”的任何信息，如果该网站是新闻网站，情况更糟。

因此，我也猜测解决方案必须是一个看起来只使用源数据本身的解决方案。

我的查询与在 How to cluster search engine keywords? 提出的查询非常相似，只是我正在寻找开始的地方，但使用 Python 而不是 Java。

我也想知道 Google Predict 和/或 Google Refine 是否有用。

无论如何，欢迎提出任何想法/建议，

谢谢， C

最佳答案

我非常喜欢 Woosh。它是一个纯 Python 搜索引擎，除其他外，还提供那种功能。检查一下。

http://packages.python.org/Whoosh/index.html

您正在寻找的功能称为“分面搜索结果”

http://packages.python.org/Whoosh/facets.html

埃尔南

关于Python:聚类搜索引擎关键词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5457993/