objective-c - 如何从 PDF 页面获取文本?

标签 objective-c pdf

如何在 Objective-C 中获取 PDF 页面中的文本?

最佳答案

首先 - 放弃任何“快速和肮脏”的解析 PDF 的解决方案 - 它会失败得很惨。我的同事花了很多时间试图在 iOS 中正确解决这个问题。他的前 3 个(按质量,降序)选项:

  1. muPDF ( http://www.mupdf.com/ ) 很棒的图书馆 - 它可以很好地提取。它是根据 GPL 获得许可的,虽然这是我们专有应用程序的展示塞子。
  2. 基于 CGPDFScanner 的自制解决方案.您可以找到有关如何执行此操作的简短说明 here .这种方法的主要问题是 SDK 本身——Apple 的 PDF API 受到严重限制(我怀疑是故意的)。例如,您必须在 2D 空间中布置提取的文本 block ,因为 PDF 不能保证绘图顺序与文本流匹配,而 iOS SDK 在这里没有一点帮助。
  3. Poppler ( http://poppler.freedesktop.org/ ) 没问题,但对于文本提取而言,它大致相当于第二个选项(具有大量附加依赖项)。

Mac OS X 可以有更多选项,但我不知道。

关于objective-c - 如何从 PDF 页面获取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9427634/

相关文章:

java - PDFBox - 如何通过页码获取页面的页面索引

objective-c - iOS动态添加UIControls

ios - 可以将 iPhone 高高抛在空中启动我的应用程序或触发 iOS 7 或更高版本中的所需功能

c# - itextsharp document.close 上的堆栈溢出异常

pdf - Ghostscript - PDF 文件,有多个托盘,有很多问题

ios - 横向的 UIPrintInteractionController

iphone - UITextField 不会在整个项目中自动大写

ios - RCTBatchedBridge.m 错误 : Invalid data message - all must be length:%zd. React Native,iOS 模拟器

objective-c - Sprite 套件中的形状

java - 用 Java 创建动态 PDF