python - 有没有办法从后记文件中提取文本信息？ (.ps.eps)

我想提取 postscript 图像文件中包含的文本信息(我的轴标签的标题)。这些图像是用 pgplot 生成的。我在 Ubuntu 上尝试过 ps2ascii 和 ps2txt，但它们没有产生任何有用的结果。有人知道另一种方法吗？

谢谢

最佳答案

很可能pgplot是直接用线条画出文本中的字体，而不是使用文本。特别是因为 pgplot 旨在输出到各种设备，包括您必须执行此操作的绘图仪。

编辑:

如果你有足够的地 block 值得努力比它更简单图像处理任务。转换每个在单声道中翻页到类似 tiff 的内容 chrome 将图像阈值化为二进制，文本将是最大像素值。

使用模板匹配技术。如果你有一套有限的可能的标签然后匹配整个标签，你甚至可以开始使用正确尺寸的模板和旋转。然后标记每个绘制为包含标签 [1-n]，否需要阅读实际的文本。

如果你不知道标签那么你可以仍然相当容易地进行 OCR，只是提取轴周围的区域，垂直旋转它 - 并使用 Google 的免费 OCR 库

如果你有 pgplot 你甚至可以为 OCR 构建训练集或模板图像直接而不是而不是必须从图片列表

关于python - 有没有办法从后记文件中提取文本信息？ (.ps.eps)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4934669/

相关文章：

image - 基于LSB-DCT的图像隐写术