我想根据用户输入的关键字/短语执行内容搜索,并返回包含这些关键字/短语的条目。 我想要执行搜索的文档作为二进制数据存储在 postgressql 中。
最佳答案
第一步是从二进制文件中获取可读文本。用于从各种文件类型中读取文本的一个很好的库是 Apache TIKA .
从文档中获得可读文本后,您需要将此文本与原始二进制文档的一些引用一起存储在 PostgreSQL 中,并使用 PostgreSQL 的全文搜索功能进行搜索:https://www.postgresql.org/docs/9.6/static/textsearch.html
数据库搜索功能的替代方案类似于 Apache Lucene 。到目前为止,我使用 Apache Lucene 取得了非常不错的结果。
关于java - 如何对数据库中作为二进制数据存储的文件进行索引?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39931247/