c# - 使用 C# 将 PDF 转换为可工作的文本

标签 c# pdf text-extraction image-extraction

<分区>

是否有一个库具有从 c#.net 中的 pdf 文件中提取文本的类?我已经尝试了一些,但文档很糟糕,所以我无法将其付诸实践。另外,如果它提供了一个类来提取图像,那将是一个加号。有什么建议么?提前致谢。

我还需要能够将其实现到现有应用程序中。

最佳答案

你试过了吗PDFKit.NET ?它有合理的文档和一些很好的例子。它是为服务器环境设计的,所以有点贵。

编辑 这是 SourceForge 上的一个开源库,名为 iTextSharp .它对开源项目是免费的。我没用过,但看起来很有希望。 Here is a tutorial因为它有很多代码示例。

关于c# - 使用 C# 将 PDF 转换为可工作的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1653159/

相关文章:

c# - 用鼠标拖动无边框窗体

c# - Ref 和 OUT 幕后

asp.net-mvc - 如何在 Rotativa 生成的 PDF 中显示分页符

javascript - 将文件从输入传输到 iframe JavaScript

c# - 'ShowSUM' : __declspec(dllexport) cannot be applied to a function with the __clrcall calling convention

c# - 在 ASP.NET 中实现文件下载时如何处理我的文件流?

java - PDF 抓取 -> MS Access

javascript - HTML 另存为 PDF 2 页

python - 从字符串列表中提取 8 位数字

java - 从网页中剥离 HTML 并计算词频?