如何在 Objective-C 中获取 PDF 页面中的文本?
最佳答案
首先 - 放弃任何“快速和肮脏”的解析 PDF 的解决方案 - 它会失败得很惨。我的同事花了很多时间试图在 iOS 中正确解决这个问题。他的前 3 个(按质量,降序)选项:
- muPDF ( http://www.mupdf.com/ ) 很棒的图书馆 - 它可以很好地提取。它是根据 GPL 获得许可的,虽然这是我们专有应用程序的展示塞子。
- 基于 CGPDFScanner 的自制解决方案.您可以找到有关如何执行此操作的简短说明 here .这种方法的主要问题是 SDK 本身——Apple 的 PDF API 受到严重限制(我怀疑是故意的)。例如,您必须在 2D 空间中布置提取的文本 block ,因为 PDF 不能保证绘图顺序与文本流匹配,而 iOS SDK 在这里没有一点帮助。
- Poppler ( http://poppler.freedesktop.org/ ) 没问题,但对于文本提取而言,它大致相当于第二个选项(具有大量附加依赖项)。
Mac OS X 可以有更多选项,但我不知道。
关于objective-c - 如何从 PDF 页面获取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9427634/