mysql - 快速实现非常大的索引文本搜索?

标签 mysql mongodb solr lucene indexing

我有一个大约 500GB 的文本文件(即非常大的日志文件),并且希望构建一个实现来快速搜索它。

到目前为止,我已经使用 SQLite 数据库创建了自己的倒排索引,但这扩展性不够好。

任何人都可以建议一个相当简单的实现来快速搜索这个庞大的文档吗?

我看过 Solr 和 Lucene,但它们对于快速解决方案来说看起来太复杂了,我认为内置全文索引的数据库(MySQl、Raven、Mongo 等)可能是最简单的解决方案,但没有有这方面的经验。

最佳答案

由于您正在研究日志文件的文本处理,因此我会仔细查看 Elasticsearch Logstask Kibana堆。 Elasticsearch 提供基于 Lucene 的文本搜索。 Logstash 解析日志文件并将其加载到 Elasticsearch 中。 Kibana 提供了用于搜索和分析数据的可视化和查询工具。

这是一个关于 ELK 堆栈的很好的网络研讨会,由他们的一位培训师主持:http://www.elasticsearch.org/webinars/elk-stack-devops-environment/

作为一名经验丰富的 MongoDB、Solr 和 Elasticsearch 用户,我对安装所有三个组件并进行日志数据功能分析的轻松程度印象深刻。而且它还拥有强大的用户社区,无论是在 stackoverflow 还是其他地方。

您可以在这里下载:http://www.elasticsearch.org/overview/elkdownloads/

关于mysql - 快速实现非常大的索引文本搜索?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24259809/

相关文章:

php - 连接问题和 2 个确切的列名

mysql - 是否可以反转 SQL 中的 select 语句?

mysql - 更改 SQL 查询中的返回值

MySQL Query 帮助,包括一个计数?

python - Mongodb 上的高全局锁定百分比

node.js - 如何在 Mongoose 中使用 .slice

javascript - 更新 MongoDB 文档列表

sorting - 用于对整数值进行排序的正确 Solr 字段类型是什么?

php - Symfony solr bundle 2.8 +

Solr 查询 - HTTP 错误 404 未定义字段文本