我需要创建一个将 pdf 文件转换为 txt 的 C# 或 C++ (MFC) 应用程序。我不仅需要转换,还需要删除页眉、页脚、左边距上的一些垃圾字符等。因此,应用程序允许用户设置页边距以切断不需要的内容。我实际上已经使用 xpdf 创建了这样一个应用程序,但是当我试图将自定义标签插入到提取的文本中以保留斜体和粗体时,它给我带来了一些问题。也许有人可以提出一些有用的建议?
谢谢。
最佳答案
那里有共享软件和免费软件实用程序。尝试获取它们的源代码,或者按原样使用它们。
可以找到 PDF 规范的公共(public)版本 here: Adobe PDF Specification
可以找到 PDF 共享软件阅读器:PDF Reader source code @ SourceForge
关于c# - 将 pdf 转换为文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7421300/