vb.net - 解析 Microsoft Office 和 PDF 文档的最佳方法是什么?

标签 vb.net pdf ms-office parsing lucene.net

我正在使用 VB9 (VS2008) 和 Lucene.NET 开发桌面搜索引擎。
Lucene.NET 中的索引器仅接受原始文本数据,无法直接从 Microsoft Office(DOC、DOCX、PPT、PPTX)和 PDF 文档中提取原始文本。
从此类文件中提取原始文本数据的最佳方法是什么?

最佳答案

您可以像 Windows 桌面搜索一样使用实现 IFilter 接口(interface)的组件。

  • Example of its usage from .NET
  • Links to IFilter implementations
  • Description of the IFilter interface
  • 关于vb.net - 解析 Microsoft Office 和 PDF 文档的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/465302/

    相关文章:

    vb.net - 在输入框中使用密码字符 "*"

    asp.net - aspx页面上的变量,指示未声明

    android - 使用 FileProvider uri 打开 PDF 文件会打开一个空白屏幕

    Excel 列值随条件变化

    ios - Mac 和 Windows Excel

    hyperlink - 如何使用 tika 从办公文档中提取超链接

    .net - 在查询中多次使用相关实体

    vb.net - LINQ to SQL 定义对象标识的成员无法更改

    c# - 使用 itextsharp 将转发器控件转换为 pdf 每个重复的内容都应该出现在新页面中

    ubuntu - 无需从 ubuntu 进行 postscript 转换即可打印彩色激光