c# - 如何从特定的二进制文件格式中提取文本?

标签 c# pdf

在 .Net 中,从以下几种二进制文件格式中提取所有文本的最佳方法是什么:PDF、Word、Excel 和 PowerPoint。

它不需要格式化,只是文件中文本的一大堆转储。

代码会很棒,但我真的只需要指出其中的一些最佳实践或模式。

最佳答案

我很惊讶没有人提到 IFilters . IFilters 是 Microsoft 用来在 Windows 中索引文档的工具。您必须进行一些谷歌搜索才能找到您正在寻找的特定格式的 IFilter,但您应该可以找到大部分所需内容。不过请注意,IFilter 并不完美。他们有问题......

这是一篇帮助您入门的 CodProject 文章:http://www.codeproject.com/KB/cs/IFilter.aspx

关于c# - 如何从特定的二进制文件格式中提取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2073025/

相关文章:

c# - 如何验证存储在 C# 类中的数据

c# datagridview 订单行?

c# - Linq to Entity Join 和 Group By

c# - 跨方法边界的 LINQ to SQL 规则

java - 是否有任何与 Spring 集成的 Java PDF 库?

java - CAdES 数字签名

swift - base64 编码的 PDF 无法在 swift 中解码

c# - 我可以一次合并这两个列表吗

php - fpdf 打印字符串而不是值

java - PDF 文件被下载两次 - IE8