我有一些黑白文档(图像扫描),想根据它们的布局将它们聚类。为了使事情更具体,假设我有以下三张图片,前两张更有可能属于同一个集群,而不是第三张图片,因为前两张具有相对相似的布局。
我的问题是,对文档进行聚类的最佳方法是什么?现在我有几个初步的方法:
- 获取图像哈希并比较哈希
- 使用 PCA 和一些聚类技术(K 均值)比较低维表示
- 使用OCR提取字符串,提取文本特征并进行比较
- 使用 OCR 提取字符串并进行一些关键字搜索
还有其他更好的方法吗?同样,只有布局很重要。
最佳答案
不要尝试对原始数据进行聚类。
聚类是无监督的,它无法了解哪些属性重要,哪些属性不重要。对于聚类算法,一切都很重要。
相反,首先定义与布局相关的功能。比如长边。
关于python - 黑白图像文档聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47462522/