java - 在java中从维基百科转储中搜索文本的最佳方法是什么?

标签 java full-text-search mediawiki wikipedia

我有兴趣从维基百科转储中搜索包含一对单词的特定句子。一种方法是在提取转储 XML 后遍历所有文档。有没有更好的解决办法?

最佳答案

我建议使用内容的倒排索引。您可以使用 Lucene、Elastic Search、Solr 等。

以下是使用 Lucene 索引的示例:Wikipedia index using lucene

关于java - 在java中从维基百科转储中搜索文本的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47981956/

相关文章:

java - 如何使用 java 32 位与 64 位

php - MySQL .. 使用全文搜索还是使用 Like?什么是更好的?

java - 在lucene中分组搜索后检索文档

mysql全文搜索作为二级索引

tags - 将标签添加到 MediaWiki 并在首页上显示标签云?

php - 如何修复 MediaWiki 错误 "Wiki uses cookies to log in users. You have cookies disabled. Please enable them and try again."?

java - 是否有将 C# 代码转换为 Java 代码的有效工具?

java - 为@ElementCollection Map 做更新而不是删除/插入

java - 从 Java 代码运行 Sox 命令

python - 使用 python3 请求登录网站(Mediawiki)