pdf - iTextSharp PDF 使用 C# 读取突出显示的文本(突出显示注释)

标签 pdf itext pdf-scraping

我正在开发一个 C# winform 应用程序,用于将 pdf 内容转换为文本。除 pdf 突出显示文本中的内容外,所有必需的内容均被提取。 请帮助获取工作示例以提取 pdf 中突出显示的文本。 我在项目中使用iTextSharp.dll

最佳答案

假设您正在谈论评论。请尝试这个:

for (int i = pageFrom; i <= pageTo; i++)
{
    PdfDictionary page = reader.GetPageN(i);
    PdfArray annots = page.GetAsArray(iTextSharp.text.pdf.PdfName.ANNOTS);
    if (annots != null)
        foreach (PdfObject annot in annots.ArrayList)
        {
            PdfDictionary annotation = (PdfDictionary)PdfReader.GetPdfObject(annot);
            PdfString contents = annotation.GetAsString(PdfName.CONTENTS);
            // now use the String value of contents
        }
}

这是凭内存写的(我是 Java 开发人员,而不是 C# 开发人员)。

关于pdf - iTextSharp PDF 使用 C# 读取突出显示的文本(突出显示注释),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23342500/

相关文章:

android - 打开位于应用程序内的 pdf 文件(原始文件夹)

pdf - Pandoc 输出中的表格或图像太宽,如 DOCX 或 PDF/LaTeX

Android - 从 SQLite 数据源设计和生成报告的好的报告工具是什么?

pdf - 您将如何以编程方式在 PDF 中嵌入 SWF?

java - iTextPDF:动态更改表格对齐方式

android - android创建pdf文件时出错

pdf - 在哪里可以获得 Adob​​e-Identity-UCS cmap 文件?

r - R : how to scrape tables after specific Title 中的 Tabulizer 包

用于将 PDF 转换为文本的 Python 模块