<分区>
我正在开发一个将 HTML 文档存储在 MongoDB 数据库中的 Node.js 应用程序,并希望提供全文搜索功能。据我所知,MongoDB 中包含的全文搜索期望文档是纯文本,因此不适合为我的 html 文档编制索引。这个假设是否正确,如果是这样,人们对此有何建议。
来自阅读其他SO posts Elastic Search 似乎是最推荐的路径。不过,我不能说我对将 Java 应用程序带入画面感到非常高兴。拥有一个完全独立的应用也不是我理想的场景。
<分区>
我正在开发一个将 HTML 文档存储在 MongoDB 数据库中的 Node.js 应用程序,并希望提供全文搜索功能。据我所知,MongoDB 中包含的全文搜索期望文档是纯文本,因此不适合为我的 html 文档编制索引。这个假设是否正确,如果是这样,人们对此有何建议。
来自阅读其他SO posts Elastic Search 似乎是最推荐的路径。不过,我不能说我对将 Java 应用程序带入画面感到非常高兴。拥有一个完全独立的应用也不是我理想的场景。
最佳答案
您可以在 HTML 中使用一些正则表达式并尝试 strip the markup从 HTML 自己。输出可以被 MongoDB 索引。
这可能比使用 ES 或 Solr 等搜索工具(这确实超出了本文的范围)更容易开发,但它不会让你走得太远:简单地剥离 HTML 意味着上下文信息丢失,无效的 HTML 会导致麻烦。
关于node.js - 富文档的MongoDB全文搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18567989/