machine-learning - 如何训练和读取图像/PDF中的特定文本?

标签 machine-learning training-data pdftotext read-text image-text

图像或 PDF 可能包含

**

  1. 打印文本,
  2. 手写文字,
  3. 段落,
  4. 键值对,
  5. 复杂的表格。

**

在训练时,我们将为文档分配标签/关键字。测试时将查找标签并读取标签的结果。

最佳答案

您需要执行 3 个步骤:

  1. 首先,您应该编写基本的对象识别算法 一个图像。该算法必须将图像裁剪到 ROI( 兴趣),那么它应该根据您的元素对每个投资返回率进行分类 内容类型列表。对于这一部分,您可以使用一些启发式规则 (例如,表格有时具有矩形边界)以获取 投资返回率的特点。然后你可以使用轻量级分类器,例如 决策树。

  2. 接下来您应该提供读取数据结构的算法 由 ROI 类型定义。例如,对于表,您应该找到所有 图像上的细胞。然后你需要找到其中的每个单词或数字 您的数据结构并将其裁剪为符号集。

  3. 完成后,您必须根据您的喜好对每个符号进行分类 文本图像分类器。在此步骤中,您可以使用多层 例如感知器或贝叶斯朴素分类器,以及另一个 通常用于图像识别的分类器类型。

在实践中,你可以尝试OpenCV库,它已经拥有您完成工作所需的几乎所有算法。

为了更好地理解第三步,您可以观看my project基于OpenCV人工神经网络特征使用的验证码识别。

关于machine-learning - 如何训练和读取图像/PDF中的特定文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59169755/

相关文章:

node.js - 在 spawn 中使用两个命令(使用管道 |)

php - 如何在共享驱动器上执行 xpdf (pdftotext.exe)?

r - 在 R 中使用 depmixS4 拟合 HMM 时出现 NA/NaN/Inf 错误

python - 机器学习将公司名称按其行业进行分类

machine-learning - 验证和测试准确性差异很大

tensorflow:批量可变大小的图像

python - 子进程没有输出任何内容

python - 进行类别不平衡正则化的正确位置(数据级别或批处理级别)

algorithm - 根据过去观察到的分组对最佳数据分组进行排名

r - 在 R 中将数据帧拆分为训练集和测试集