我正在制作一个文档解析器,它从文档中提取数据字段并以结构化方式存储它们。我的数据集中的每个字段都是水平的,很容易提取。
但是该模型在垂直字段上失败,例如我想从此类图像中提取发票号码和日期,而这是任何类型的预训练 OCR 都无法实现的 -
最佳答案
将png转换为pdf,然后使用pdf2txt.py -V
关于python - 如何从扫描文档中提取垂直标签和值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59783226/