solr - 获取索引 lucene 文档子集中最常用的术语

让我们假设以下场景。

问题

我想为每个发布商 ID 构建词云(最常见的词、带状疱疹)。

经过调查，我可以找到方法来获取整个索引或文档的最常用术语，但不能获取文档子集的最常用术语。我发现了 similar question但这是Lucene 2.x，我希望最近的Lucene中存在一种有效的方法。

请您指导我在 Lucene 4.x(首选)或 3.x(最新版本 3)中执行此操作。

请注意，我无法为每个发布者制作一个文档，并将所有文章附加到一个字段中。

那是因为我希望这些词在云中可以被搜索，相应的文章(由相同的发布者 ID)作为结果。

我不确定维护两种类型的 lucene 文档(文章和发布者)在维护和性能方面是否是一个好主意。

最佳答案

使用 Solr 4.X 版本中提供的 Pivot Faceting。枢轴分面允许您在父分面的结果中进行分面。

使用Shingle Filter Factory.在索引时为“文本”字段生成Shingled token

对于分面，请在查询中添加 facet=true&facet.pivot=publisherid,text 参数。

示例查询:

http://localhost:8983/solr/collection1/select?q=*:*&wt=json&indent=true&facet=true&facet.pivot=publisherid,text

查询将返回每个“publisherid”的频繁出现频率的木瓦/单词。

关于solr - 获取索引 lucene 文档子集中最常用的术语，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18837655/