mongodb - 使用 MongoDB 索引 Markdown 文件

标签 mongodb parsing indexing markdown nosql

我正在寻找一个Document-Oriented-Database 解决方案 - 首选 MongoDB - 以索引数量不断增长且频繁变化的 (pandoc) ma​​rkdown 文件

我读到 MongoDB 有一个干净的文本索引器,但我以前没有使用过 MongoDB,我发现唯一相关的是预处理 HTML 的索引过程。我正在考虑的场景是:自动索引 Markdown 文件,其中 Markdown 语法用于创建键(例如 ## FOOO -> header2: FOO)以及键/值对的层次结构保留在文档中的位置。

这仅适用于 MongoDB 吗?还是我总是需要进行预处理,将 markdown 转换为类似 BSON 文件的文件,然后再将其提取到 MongoDB 中?

最佳答案

为什么要用MongoDB呢?我想ElasticSearch更适合这个目的,它基本上是为索引文本而构建的。然而 - 与 MongoDB 一样 - 如果您要提高查找文档的精度,您将不会自动获得任何东西,并且需要在保存文档之前对其进行处理。整个文档需要作为 JSON 对象发送到 ElasticSearch,但您也可以将整个未处理的 Markdown 文本存储在属性中。

我不确定 MongoDB 全文索引,但 ElasticSearch 还结合了文档的所有索引属性以进行全文搜索。此外,您还可以定义索引中不同属性的重要性。例如,标题可能比文本的其余部分更重要,......

关于mongodb - 使用 MongoDB 索引 Markdown 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22017566/

相关文章:

c - 在 C 中,使用变量初始化数组会导致堆栈溢出错误或在 R 中调用代码时导致 R 崩溃

python - 通过整数索引选择和修改 Pandas 数据框中的切片

c++ - 什么是置换索引?

node.js - 带有 NodeJS 的 Mongoose : Default value for document's Date only updates on server restart

javascript - SvelteKit:如何在不使用端点的情况下调用mongodb?

javascript - 具有两个参数的 Angular 函数具有错误 : [$parse:syntax]

python - 使用 Beautiful Soup 解析 html 表单输入标签

python - PySpark MongoDB 查询日期

node.js+mongodb 排序嵌套数组不起作用

javascript - nodejs elementtree npm xml解析与合并