我正在寻找一个Document-Oriented-Database 解决方案 - 首选 MongoDB - 以索引数量不断增长且频繁变化的 (pandoc) markdown 文件。
我读到 MongoDB 有一个干净的文本索引器,但我以前没有使用过 MongoDB,我发现唯一相关的是预处理 HTML 的索引过程。我正在考虑的场景是:自动索引 Markdown 文件,其中 Markdown 语法用于创建键(例如 ## FOOO
-> header2: FOO
)以及键/值对的层次结构保留在文档中的位置。
这仅适用于 MongoDB 吗?还是我总是需要进行预处理,将 markdown 转换为类似 BSON 文件的文件,然后再将其提取到 MongoDB 中?
最佳答案
为什么要用MongoDB呢?我想ElasticSearch更适合这个目的,它基本上是为索引文本而构建的。然而 - 与 MongoDB 一样 - 如果您要提高查找文档的精度,您将不会自动获得任何东西,并且需要在保存文档之前对其进行处理。整个文档需要作为 JSON 对象发送到 ElasticSearch,但您也可以将整个未处理的 Markdown 文本存储在属性中。
我不确定 MongoDB 全文索引,但 ElasticSearch 还结合了文档的所有索引属性以进行全文搜索。此外,您还可以定义索引中不同属性的重要性。例如,标题可能比文本的其余部分更重要,......
关于mongodb - 使用 MongoDB 索引 Markdown 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22017566/