python - 黑白图像文档聚类

标签 python opencv machine-learning computer-vision cluster-analysis

我有一些黑白文档(图像扫描),想根据它们的布局将它们聚类。为了使事情更具体,假设我有以下三张图片,前两张更有可能属于同一个集群,而不是第三张图片,因为前两张具有相对相似的布局。

我的问题是,对文档进行聚类的最佳方法是什么?现在我有几个初步的方法:

  • 获取图像哈希并比较哈希
  • 使用 PCA 和一些聚类技术(K 均值)比较低维表示
  • 使用OCR提取字符串,提取文本特征并进行比较
  • 使用 OCR 提取字符串并进行一些关键字搜索

还有其他更好的方法吗?同样,只有布局很重要。

1st image

2nd image

3rd image

最佳答案

不要尝试对原始数据进行聚类。

聚类是无监督的,它无法了解哪些属性重要,哪些属性不重要。对于聚类算法,一切都很重要。

相反,首先定义与布局相关的功能。比如长边。

关于python - 黑白图像文档聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47462522/

相关文章:

python - Pandas:将列表从列值映射到列?

c++ - 如何在opencv中使用findcontours方法查找图像的坐标点

python - 如何在mlflow中记录Hydra的多次运行

c++ - 矩阵在任何运算符后变得相同

python - Python OpenCV中calcOpticalFlowFarneback函数中输出值的范围

machine-learning - 软注意力 vs. 硬注意力

machine-learning - 开源问答框架

python - 如何使用 pywin32 模拟按住

python - PySide 导入错误 Mac OS X El Capitan, Library not loaded : @rpath/libpyside. cpython-34m.1.2.dylib

Python:在列表第一个行中查找第一个列表的索引