我想提取 postscript 图像文件中包含的文本信息(我的轴标签的标题)。 这些图像是用 pgplot 生成的。我在 Ubuntu 上尝试过 ps2ascii 和 ps2txt,但它们没有产生任何有用的结果。有人知道另一种方法吗?
谢谢
最佳答案
很可能pgplot是直接用线条画出文本中的字体,而不是使用文本。特别是因为 pgplot 旨在输出到各种设备,包括您必须执行此操作的绘图仪。
编辑:
如果你有足够的地 block 值得 努力比它更简单 图像处理任务。转换每个 在单声道中翻页到类似 tiff 的内容 chrome 将图像阈值化为二进制, 文本将是最大像素值。
使用模板匹配技术。 如果你有一套有限的 可能的标签然后匹配 整个标签,你甚至可以开始 使用正确尺寸的模板 和旋转。然后标记每个 绘制为包含标签 [1-n],否 需要阅读实际的文本。
如果你 不知道标签那么你可以 仍然相当容易地进行 OCR,只是 提取轴周围的区域, 垂直旋转它 - 并使用 Google 的免费 OCR 库
如果你有 pgplot 你甚至可以 为 OCR 构建训练集或 模板图像直接而不是 而不是必须从 图片列表
关于python - 有没有办法从后记文件中提取文本信息? (.ps.eps),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4934669/