objective-c - 如何从 PDF 页面获取文本？

如何在 Objective-C 中获取 PDF 页面中的文本？

最佳答案

首先 - 放弃任何“快速和肮脏”的解析 PDF 的解决方案 - 它会失败得很惨。我的同事花了很多时间试图在 iOS 中正确解决这个问题。他的前 3 个(按质量，降序)选项:

muPDF ( http://www.mupdf.com/ ) 很棒的图书馆 - 它可以很好地提取。它是根据 GPL 获得许可的，虽然这是我们专有应用程序的展示塞子。
基于 CGPDFScanner 的自制解决方案.您可以找到有关如何执行此操作的简短说明 here .这种方法的主要问题是 SDK 本身——Apple 的 PDF API 受到严重限制(我怀疑是故意的)。例如，您必须在 2D 空间中布置提取的文本 block ，因为 PDF 不能保证绘图顺序与文本流匹配，而 iOS SDK 在这里没有一点帮助。
Poppler ( http://poppler.freedesktop.org/ ) 没问题，但对于文本提取而言，它大致相当于第二个选项(具有大量附加依赖项)。

Mac OS X 可以有更多选项，但我不知道。

关于objective-c - 如何从 PDF 页面获取文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9427634/

相关文章：

java - PDFBox - 如何通过页码获取页面的页面索引