<分区>
我必须从特定矩形区域内的 pdf 文档中提取文本。工作流程如下。首先将pdf转换为jpg图像。然后用户在图片顶部绘制选择矩形。然后我需要以某种方式从该选择区域内的 pdf 文档中提取所有文本。有什么建议可以使用可从 C# 访问的免费软件 pdf 库吗?
<分区>
我必须从特定矩形区域内的 pdf 文档中提取文本。工作流程如下。首先将pdf转换为jpg图像。然后用户在图片顶部绘制选择矩形。然后我需要以某种方式从该选择区域内的 pdf 文档中提取所有文本。有什么建议可以使用可从 C# 访问的免费软件 pdf 库吗?
最佳答案
这段代码将使用itextsharp在直角坐标的基础上完美提取pdf数据
List<string> linestringlist = new List<string>();
PdfReader reader = new PdfReader(pdfFilename);
iTextSharp.text.Rectangle rect = new iTextSharp.text.Rectangle(coordinate1, coordinate2, coordinate3, coordinate4);
RenderFilter[] renderFilter = new RenderFilter[1];
renderFilter[0] = new RegionTextRenderFilter(rect);
ITextExtractionStrategy textExtractionStrategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(), renderFilter);
string text = PdfTextExtractor.GetTextFromPage(reader, 1, textExtractionStrategy);
关于c# - 如何从特定矩形区域内的 pdf 文档中提取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4297931/