c# - 用于全文搜索的索引数据库,Lucene/iFiler/SQL FTS/..etc

标签 c# sql mysql full-text-search lucene.net

我已经询问过执行全文搜索的最佳算法/实践,现在我想决定使用哪个。在过去的几天里,我已经彻底阅读了这个主题,但没有任何经验,我仍然需要帮助来找出满足我需求的最佳工具,这就是这个问题的目的。

要考虑的要点:
1- 我正在使用 C#.Net 2010 和 SQL Server 2008 R2,即我需要一个 C#/sql 友好的方法
3- 要索引的文件是 PDF、MS Office、TXT
3-我还使用 OCR 将收到的传真文档呈现为文本文件,现在我正在考虑使用 OCR 呈现数据库中输入的任何图片的文本,并使用该文本为图片提供索引字符串.
4- 为同一词的不同形式提供不同搜索结果的能力。即搜索“international”和“internationalization”应该返回不同的结果
5- 我感兴趣的主要工具:

  • 通过 iTextSharp 渲染文本,然后将其提供给 Lucene 以获取索引字符串(这是使用 Lucene 的最佳方式吗?)
  • 使用 adobe iFilter,虽然我不确定这对我系统中的所有文件类型是否足够
  • 使用 SQL FTS。它是否足以处理文件内容的索引和执行复杂的搜索操作?
  • 只要提供更好的功能,就其他工具提出任何其他建议都是非常受欢迎的
非常感谢示例、教程和链接 :) 提前致谢!

最佳答案

我使用 Lucene 为 PDF 和其他文档编制索引;太棒了。

Indexing PDF Documents with Lucene

Index Office files with Lucene

Lucene 不支持词干提取(第 4 点),因此这两个词将返回不同的结果;问题在于您是否希望这两个搜索词返回相同的结果。

关于c# - 用于全文搜索的索引数据库,Lucene/iFiler/SQL FTS/..etc,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4586460/

相关文章:

c# - 从 BLL 中的一个方法跨越多个 DAL 方法的事务

mysql - 从数据库获取成员(member)id

php - UTF-8贯穿始终

c# - 如何将 DirectShow 过滤器转换为 C++\C#?

c# - DataGridView:更改数据源后保留选择?

SQL选择几乎同时发生的事件

mysql - 在预期条件的上下文中指定的非 bool 类型的表达式,

mysql - 从 Cloud Run 连接到 Google Cloud MySql(knative)

c# - 如何将 Excel 文件另存为 PDF 并适合页面

c# - Visual Studio 找不到新项目的任何引用