c# - 将 pdf 转换为文本

标签 c# c++ pdf xpdf

我需要创建一个将 pdf 文件转换为 txt 的 C# 或 C++ (MFC) 应用程序。我不仅需要转换,还需要删除页眉、页脚、左边距上的一些垃圾字符等。因此,应用程序允许用户设置页边距以切断不需要的内容。我实际上已经使用 xpdf 创建了这样一个应用程序,但是当我试图将自定义标签插入到提取的文本中以保留斜体和粗体时,它给我带来了一些问题。也许有人可以提出一些有用的建议?

谢谢。

最佳答案

那里有共享软件和免费软件实用程序。尝试获取它们的源代码,或者按原样使用它们。

可以找到 PDF 规范的公共(public)版本 here: Adobe PDF Specification

可以找到 PDF 共享软件阅读器:PDF Reader source code @ SourceForge

关于c# - 将 pdf 转换为文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7421300/

相关文章:

python - 判断 PDF 文本是否可见

c# - 正则表达式检查单词中是否为 "and,or,not,and not"?

C# pinvoke 释放 native c++ 内存

c++ - boost 构建 : Use a feature or a variable

java - 使用 Ignite c++ 客户端访问 Ignite java 缓存

pdf - Gitbook PDF转换报错: ENOENT

c# - 生成随机字符串

c# - 这是 Partitioner.Create(int fromInclusive, int toExclusive) 中的错误吗?

c++ - 快速输入输出功能

swift - 将 base64 字符串作为 PDF 显示到 Web View 中