Python:聚类搜索引擎关键词

标签 python text nlp cluster-analysis keyword

Python:聚类搜索引擎关键字

你好, 我有一个 CSV,最多 20,000 行(我有 100,000 多个不同的网站),每行包含一个引用关键字(即有人在搜索引擎中输入的关键字以查找相关网站),以及多次访问。

我要做的是将这些关键字聚类成“相似含义”的聚类,并创建聚类的层次结构(按照每个聚类的搜索总数的总和排列)。

示例集群 - “女装” - 理想情况下包含以下几行关键字: 女装,1000 女装,300 女装,50 女装, 6 女装,2

我可以使用类似 Python 自然语言工具包的工具:http://www.nltk.org/和 WordNet,但是,我猜测对于某些网站,引用关键字将是 WordNet 一无所知的词/短语。例如,如果该网站是名人网站,WordNet 不太可能知道“Lady Gaga”的任何信息,如果该网站是新闻网站,情况更糟。

因此,我也猜测解决方案必须是一个看起来只使用源数据本身的解决方案。

我的查询与在 How to cluster search engine keywords? 提出的查询非常相似,只是我正在寻找开始的地方,但使用 Python 而不是 Java。

我也想知道 Google Predict 和/或 Google Refine 是否有用。

无论如何,欢迎提出任何想法/建议,

谢谢, C

最佳答案

我非常喜欢 Woosh。它是一个纯 Python 搜索引擎,除其他外,还提供那种功能。检查一下。

http://packages.python.org/Whoosh/index.html

您正在寻找的功能称为“分面搜索结果”

http://packages.python.org/Whoosh/facets.html

埃尔南

关于Python:聚类搜索引擎关键词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5457993/

相关文章:

python-3.x - 在必要的预处理后,如何使用 nltk 文本分析库预测特定文本或文本组

python - 使用双向包装器时,如何在 LSTM 层中同时获得最终隐藏状态和序列

python - "reference object of a file to be reassigned to another file"意味着什么?

python - python 动态生成函数参数

c# - HTML Agility Pack 不更改文本节点的文本

python - 德语词性标注

python - 从 globbing 文件路径中停止 argparse

java - 从字符串数组中提取标记位置 - Java

java - jar 文件无法正确找到文件

nlp - NameFinderME 类中 OpenNLP 的空指针异常