我正在开发一个 C# winform 应用程序,用于将 pdf 内容转换为文本。除 pdf 突出显示文本中的内容外,所有必需的内容均被提取。 请帮助获取工作示例以提取 pdf 中突出显示的文本。 我在项目中使用iTextSharp.dll
最佳答案
假设您正在谈论评论。请尝试这个:
for (int i = pageFrom; i <= pageTo; i++)
{
PdfDictionary page = reader.GetPageN(i);
PdfArray annots = page.GetAsArray(iTextSharp.text.pdf.PdfName.ANNOTS);
if (annots != null)
foreach (PdfObject annot in annots.ArrayList)
{
PdfDictionary annotation = (PdfDictionary)PdfReader.GetPdfObject(annot);
PdfString contents = annotation.GetAsString(PdfName.CONTENTS);
// now use the String value of contents
}
}
这是凭内存写的(我是 Java 开发人员,而不是 C# 开发人员)。
关于pdf - iTextSharp PDF 使用 C# 读取突出显示的文本(突出显示注释),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23342500/