mongodb - 使用 MongoDB 索引 Markdown 文件

标签 mongodb parsing indexing markdown nosql

我正在寻找一个Document-Oriented-Database 解决方案 - 首选 MongoDB - 以索引数量不断增长且频繁变化的 (pandoc) markdown 文件。

我读到 MongoDB 有一个干净的文本索引器，但我以前没有使用过 MongoDB，我发现唯一相关的是预处理 HTML 的索引过程。我正在考虑的场景是:自动索引 Markdown 文件，其中 Markdown 语法用于创建键(例如 ## FOOO -> header2: FOO)以及键/值对的层次结构保留在文档中的位置。

这仅适用于 MongoDB 吗？还是我总是需要进行预处理，将 markdown 转换为类似 BSON 文件的文件，然后再将其提取到 MongoDB 中？

最佳答案

为什么要用MongoDB呢？我想ElasticSearch更适合这个目的，它基本上是为索引文本而构建的。然而 - 与 MongoDB 一样 - 如果您要提高查找文档的精度，您将不会自动获得任何东西，并且需要在保存文档之前对其进行处理。整个文档需要作为 JSON 对象发送到 ElasticSearch，但您也可以将整个未处理的 Markdown 文本存储在属性中。

我不确定 MongoDB 全文索引，但 ElasticSearch 还结合了文档的所有索引属性以进行全文搜索。此外，您还可以定义索引中不同属性的重要性。例如，标题可能比文本的其余部分更重要，......

关于mongodb - 使用 MongoDB 索引 Markdown 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22017566/

上一篇：facebook - 社交媒体网络的官方托管图像 Assets

下一篇：eclipse - 在 Tycho Surefire 测试中使用 Eclipse Orbit 中的 slf4j

python - 通过整数索引选择和修改 Pandas 数据框中的切片

c++ - 什么是置换索引？

node.js - 带有 NodeJS 的 Mongoose : Default value for document's Date only updates on server restart

javascript - SvelteKit:如何在不使用端点的情况下调用mongodb？

javascript - 具有两个参数的 Angular 函数具有错误 : [$parse:syntax]

python - 使用 Beautiful Soup 解析 html 表单输入标签

python - PySpark MongoDB 查询日期

node.js+mongodb 排序嵌套数组不起作用

javascript - nodejs elementtree npm xml解析与合并