python - 有没有办法从后记文件中提取文本信息? (.ps.eps)

标签 python image text postscript

我想提取 postscript 图像文件中包含的文本信息(我的轴标签的标题)。 这些图像是用 pgplot 生成的。我在 Ubuntu 上尝试过 ps2ascii 和 ps2txt,但它们没有产生任何有用的结果。有人知道另一种方法吗?

谢谢

最佳答案

很可能pgplot是直接用线条画出文本中的字体,而不是使用文本。特别是因为 pgplot 旨在输出到各种设备,包括您必须执行此操作的绘图仪。

编辑:

如果你有足够的地 block 值得 努力比它更简单 图像处理任务。转换每个 在单声道中翻页到类似 tiff 的内容 chrome 将图像阈值化为二进制, 文本将是最大像素值。

使用模板匹配技术。 如果你有一套有限的 可能的标签然后匹配 整个标签,你甚至可以开始 使用正确尺寸的模板 和旋转。然后标记每个 绘制为包含标签 [1-n],否 需要阅读实际的文本。

如果你 不知道标签那么你可以 仍然相当容易地进行 OCR,只是 提取轴周围的区域, 垂直旋转它 - 并使用 Google 的免费 OCR 库

如果你有 pgplot 你甚至可以 为 OCR 构建训练集或 模板图像直接而不是 而不是必须从 图片列表

关于python - 有没有办法从后记文件中提取文本信息? (.ps.eps),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4934669/

相关文章:

image - 基于LSB-DCT的图像隐写术

css - 文本渐变和不同长度文本的问题

python - 如何获取 Gtk ScrolledWindow 中的当前显示区域

python - 为什么Pygame只播放最后一个声音?

image - OpenCV:无法正确读取 16 位深度的单 channel png 图像

string - 如何使用 sscanf 或 fscanf 从文件中读取字符串?

python - 每次有新文档时,我需要帮助在列表中创建新列表时 append 文本文件中的单词

javascript - Jinja2 不在 javascript/html 中渲染引号或 amp;安全过滤器无法解决

python - 修改列表中的元组

c - 使用 sdl 进行像素操作