pdf - Tika - 如何从 PDF 文本中提取文本 : underlined, 突出显示，划掉

标签 pdf text markup apache-tika

我正在使用 Tika* 来解析 PDF 文件。检索文档的文本没有问题，但我不知道如何提取文本:

下划线
突出显示
划掉

Adobe Writer 为您提供了不同的文本编辑选项，但我看不到它们“隐藏”的位置。

是否有解决方案来提取这些元数据信息？ (下划线，突出显示...)

您知道 Tika 是否能够提取这些数据吗？

*http://tika.apache.org/

最佳答案

哇。等待答案需要 4 年的时间，我认为您现在已经找到了解决方案。无论如何，为了那些会访问此链接的人，答案是肯定的。 Apache Tika 不仅可以提取文档中的文本，还可以提取格式(例如粗体、斜体)。这是我的场景:

    //inputStream is the document you wish to parse from.

    AutoDetectParser parser = new AutoDetectParser();
    ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
    Metadata metadata = new Metadata();

    parser.parse(inputStream,handler,metadata);
    System.out.println(handler.toString());

print 语句打印文档的 XML。通过一些清理 XML(真正的 HTML 标签)的工作，您将留下诸如 < b >text 用于粗体文本和 < i >text 用于斜体文本的标签。然后你可以找到一种方法来渲染它。祝你好运。

关于pdf - Tika - 如何从 PDF 文本中提取文本 : underlined, 突出显示，划掉，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12341514/

上一篇：.net - 你可以在哪里发布 eensy weesy 有用的小 .NET 类？

下一篇：SQL:结果顺序是否映射到 'IN' 表达式中的值？

相关文章：

markup - 标记中排序的目录 [TOC] (md)

c# - 如何使用 Itextsharp 从 Mysql 获取 UTF8 字符并将其存储到 C# 程序中的 PDF 中？

r - 将所有函数保存在txt文件中

markup - 如何让浏览器识别自定义的用户定义标签？

c - Strtok 问题 C(EOF 字符？)

html - 在 SVG 文本元素中插入 HTML 代码

markup - 你如何在fogbugz Cases(tickets)中制作代码块？

javascript - Rails 5 - 将表单提交结果渲染为 js 或其他格式(例如 PDF)

r - knitR/RMD : select output folder

node.js - 如何在 Node.js 中对 pdfkit PDF 文件生成进行正确的回调？