python - 图像上框架文本的坐标

我想获取图像上框架文本的坐标。这些段落有细黑边框。图像的其余部分包含常用的段落和草图。

这是一个示例:

你知道我应该在Python中使用什么样的算法和图像库来实现这个目的吗？谢谢。

最佳答案

检测框架文本的一些想法，主要归结为搜索大尺寸的框/矩形:

使用 OpenCV 查找轮廓，使用 cv2.approxPolyDP() 分析形状多边形近似算法(也称为 Ramer–Douglas–Peucker algorithm )。您还可以检查边界框的长宽比，以确保形状是矩形，并检查页面宽度，因为这在您的情况下似乎是已知的度量标准。 PyImageSearch 做了这篇很棒的文章:
- OpenCV shape detection
在 related question ，还有一个建议可以查看Hough Lines要检测水平线，请转动并以相同的方式检测垂直线。不能 100% 确定这种方法的可靠性。

找到框框后，下一步就是检查框内是否有任何文本。一般来说，检测文本是一个更广泛的问题，有很多方法可以实现，以下是一些示例:

申请EAST text detector
PixelLink
tesseract (例如通过pytesseract)但不确定这是否不会有太多误报
如果这是一个更简单的盒子是否为空的情况，您可以检查内部的平均像素值 - 例如与 cv2.countNonZero() 。示例:
- How to identify empty rectangle using OpenCV
- Count the black pixels using OpenCV

其他引用资料:

关于python - 图像上框架文本的坐标，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65355295/