android - iText 作为文本在 Android 上从 PDF 中提取/读取

标签 android pdf itext

我在使用 iText 时遇到问题。其他人说 iText 只能用于 PDF 创建?并且它无法读取或提取 PDF 中的文本。真的吗?

如果这是真的,那么我可以选择哪些其他选项从 PDF 文件中提取文本并将其保存在变量中或在 Android 设备中显示?

如果 iText 能够从 PDF 中提取文本,那么如何提取呢?

最佳答案

iText 可以从 PDF 中提取文本。虽然它最初确实是作为创建新 PDF 和操作现有 PDF 的工具,但近年来它在提取文本方面也变得越来越好。这显然意味着您应该使用当前的 iText 版本 (5.3.x) 进行文本提取。

iText 主要开发人员 Bruno Lowagie 所著的《iText in Action,第二版》一书在第 15 章中解释了基本的 iText 文本提取,该章中的示例可在 iText Sourceforge SVN 存储库中找到,参见Samples for chapter 15 。一个好的起点是 ExtractPageContentSorted2它提取整个页面的文本。

如果您有特殊要求,可以使用ExtractPageContentSorted1作为明确定义文本提取策略的起点;根据您的要求,您将需要自己的策略。如果您只需要特定区域的文本,请查看 ExtractPageContentArea .

要真正微调 iText 的文本提取功能,您应该查看 iText-question 邮件列表存档(例如 at nabble.com ),因为最近 iText 文本提取 API 已扩展以服务其他用例。

关于android - iText 作为文本在 Android 上从 PDF 中提取/读取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13005902/

相关文章:

java - 文本下的 Itext 条码

android - 从Flutter项目构建APK时出错

android - 找不到 HelloAndroid.apk?

python - 如何使用 python 访问 PDF 表单字段

android - 在 android Activity 中的应用程序内显示 pdf 文件

javascript - 如何在 PDF.js 中使用注释层?

java - 使用 Java 和 IText,如何从 PDF 中提取 AcroForm 字段名称?

java - iText - 读取使用未知随机所有者密码创建的 PDF

android - 无法打开sqlite数据库文件

android - SugarORM错误或缺少数据库