在 .Net 中,从以下几种二进制文件格式中提取所有文本的最佳方法是什么:PDF、Word、Excel 和 PowerPoint。
它不需要格式化,只是文件中文本的一大堆转储。
代码会很棒,但我真的只需要指出其中的一些最佳实践或模式。
最佳答案
我很惊讶没有人提到 IFilters . IFilters 是 Microsoft 用来在 Windows 中索引文档的工具。您必须进行一些谷歌搜索才能找到您正在寻找的特定格式的 IFilter,但您应该可以找到大部分所需内容。不过请注意,IFilter 并不完美。他们有问题......
这是一篇帮助您入门的 CodProject 文章:http://www.codeproject.com/KB/cs/IFilter.aspx
关于c# - 如何从特定的二进制文件格式中提取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2073025/