elasticsearch - 维基词典/MediaWiki 搜索和后缀过滤

标签 elasticsearch lucene mediawiki mediawiki-api wiktionary

我正在构建一个应用程序,希望使用维基词典单词和定义作为数据源。在我的查询中,我希望能够搜索与用户在标题或定义中提供的术语相似的所有维基词典条目,但也有以指定后缀(或一组后缀之一)结尾的标题。

例如,我想查找所有包含“大狗”一词的维基词典条目,如下所示: https://en.wiktionary.org/w/api.php?action=query&list=search&srsearch=large%20dog

但进一步过滤结果以仅包含标题以“d”结尾的条目。因此,在该示例中,将返回“boarhound”、“Saint Bernard”和“unleashed”。

这可以通过 MediaWiki 搜索 API 实现吗?您有什么建议吗?

最佳答案

这对于 ElasticSearch/CirrusSearch 来说几乎是可能的,但是 disabled for performance reasons 。您仍然可以在您的 wiki 上使用它,或者 attempt smart search queries .

通常对于维基词典我使用 yanker ,可以访问数据库的页表。你的例子(一个字母后缀)会很大,但例如 .*hound$发现:

阿富汗猎犬 巴伐利亚山猎犬 猎狐犬 爱尔兰猎狼犬 马猎犬 水獭猎犬 俄罗斯猎狼犬 苏格兰猎鹿犬 三猎犬 巴吉度猎犬 猎熊犬 黑海猎犬 寻血猎犬 野 pig 猎犬 书迷 酒狗 猎鹿犬 吃货 浣熊猎犬 猎浣熊犬 隐蔽猎犬 隐蔽猎犬 掩护猎犬 猎鹿犬 双鼻安第斯虎猎犬 猎鹿犬 猎狐犬 凝视猎犬 猎犬 灰狗 灰狗 野兔犬 赫克猎犬 hell 猎犬 hell 猎犬 hell 犬 灰猎犬 苦薄荷 猎犬 莱姆猎犬 莱姆猎犬 水貂犬 新闻猎手 护士猎犬 水獭猎犬 粉猎犬 粉猎犬 宣传猎犬 宣传猎犬 摇滚猎犬 猎犬 气味猎犬 猎犬 长毛猎犬 视觉猎犬 侦探猎犬 侦探猎犬 老虎猎犬 慢猎犬 荡妇猎犬 平滑猎犬 平滑猎犬 斯穆特猎犬 猎鹿犬 战犬 妓女 狼狗

关于elasticsearch - 维基词典/MediaWiki 搜索和后缀过滤,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29723258/

相关文章:

text - 所有内容页面的类似维基百科的列表

elasticsearch - 在Elasticsearch中基于日志设计警报系统

elasticsearch - 从 Elasticsearch 的简单分析器更改为标准分析器是否需要重新索引?

sql-server - Elasticsearch返回旧的SQL结果

elasticsearch - Elasticsearch 2.1:“结果”窗口太大(index.max_result_window)

json - Elasticsearch 的 "include_in_parent"/"include_in_root"是如何工作的?它应该显示在 '_source' 中吗?

mysql - 如何向 solr 查询响应添加新参数

java - 如何在Lucene索引中搜索俄语文本?

php - 确定 mediawiki 页面中的 namespace (api quest.)

api - 使用属性查询维基百科页面