vb.net - 解析 Microsoft Office 和 PDF 文档的最佳方法是什么？

标签 vb.net pdf ms-office parsing lucene.net

我正在使用 VB9 (VS2008) 和 Lucene.NET 开发桌面搜索引擎。
Lucene.NET 中的索引器仅接受原始文本数据，无法直接从 Microsoft Office(DOC、DOCX、PPT、PPTX)和 PDF 文档中提取原始文本。
从此类文件中提取原始文本数据的最佳方法是什么？

最佳答案

您可以像 Windows 桌面搜索一样使用实现 IFilter 接口(interface)的组件。

Example of its usage from .NET

Links to IFilter implementations

Description of the IFilter interface

关于vb.net - 解析 Microsoft Office 和 PDF 文档的最佳方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/465302/

上一篇：gpu - 使用 NVIDIA NPP 将大小调整为精确目标尺寸的正确方法是什么？

下一篇：r - 在 R 中使用 read.csv - 打开文件名包含单词/短语的数据集

相关文章：

vb.net - 在输入框中使用密码字符 "*"

asp.net - aspx页面上的变量，指示未声明

android - 使用 FileProvider uri 打开 PDF 文件会打开一个空白屏幕

Excel 列值随条件变化

ios - Mac 和 Windows Excel

hyperlink - 如何使用 tika 从办公文档中提取超链接

.net - 在查询中多次使用相关实体

vb.net - LINQ to SQL 定义对象标识的成员无法更改

c# - 使用 itextsharp 将转发器控件转换为 pdf 每个重复的内容都应该出现在新页面中

ubuntu - 无需从 ubuntu 进行 postscript 转换即可打印彩色激光

©2024 IT工具网联系我们