pdf - iTextSharp PDF 使用 C# 读取突出显示的文本(突出显示注释)

我正在开发一个 C# winform 应用程序，用于将 pdf 内容转换为文本。除 pdf 突出显示文本中的内容外，所有必需的内容均被提取。请帮助获取工作示例以提取 pdf 中突出显示的文本。我在项目中使用iTextSharp.dll

最佳答案

假设您正在谈论评论。请尝试这个:

for (int i = pageFrom; i <= pageTo; i++)
{
    PdfDictionary page = reader.GetPageN(i);
    PdfArray annots = page.GetAsArray(iTextSharp.text.pdf.PdfName.ANNOTS);
    if (annots != null)
        foreach (PdfObject annot in annots.ArrayList)
        {
            PdfDictionary annotation = (PdfDictionary)PdfReader.GetPdfObject(annot);
            PdfString contents = annotation.GetAsString(PdfName.CONTENTS);
            // now use the String value of contents
        }
}

这是凭内存写的(我是 Java 开发人员，而不是 C# 开发人员)。

关于pdf - iTextSharp PDF 使用 C# 读取突出显示的文本(突出显示注释)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23342500/

上一篇：recursion - 协助Agda的终止检查器制作递归函数

下一篇：sql - 如何避免在多个表上的 SQL 上使用笛卡尔积

相关文章：

android - 打开位于应用程序内的 pdf 文件(原始文件夹)

pdf - Pandoc 输出中的表格或图像太宽，如 DOCX 或 PDF/LaTeX

Android - 从 SQLite 数据源设计和生成报告的好的报告工具是什么？

pdf - 您将如何以编程方式在 PDF 中嵌入 SWF？

java - iTextPDF:动态更改表格对齐方式

android - android创建pdf文件时出错

pdf - 在哪里可以获得 Adobe-Identity-UCS cmap 文件？

r - R : how to scrape tables after specific Title 中的 Tabulizer 包

用于将 PDF 转换为文本的 Python 模块