阅读一篇论文,我很难理解所描述的算法:
给定手写样本的黑白数字图像,裁剪出单个字符进行分析。由于这可以是任意大小,因此算法需要考虑到这一点(如果更简单,我们可以假设大小为 2^n x 2^m)。
现在,描述说明给定这张图片,我们将把它转换为 512 位特征(512 位哈希),如下所示:
(192 位)通过将图像与 3x3 Sobel 运算符进行卷积来计算图像的梯度。每条边的梯度方向量化为12个方向。
(192 位)结构特征生成器采用梯度图并在邻域中查找梯度值的某些组合。 (用于计算代表图像中的线和角的 8 个不同特征)
(128 位)凹度生成器使用 8 点星形算子在 4 个方向、孔洞和大尺度笔划中寻找粗凹度。
图像特征图使用 4x4 网格归一化。
我现在正在努力研究如何拍摄任意图像,将其分成 16 个部分,并使用 3x3 Sobel 运算符为每个部分提供 12 位。 (但如果您对其他部分有一些了解,请随时发表评论:)
最佳答案
我正在为 Srihari 等人的同一篇论文而苦苦挣扎。 (2002) 获得博士学位。论文。我想说这段文字不是很具体,但作者引用了一份技术报告 (CEDAR-TR-01-1) 以了解更多详细信息。这份报告似乎无法在互联网上访问,所以我的建议是通过电子邮件联系作者并索取这份报告。如果有什么不清楚的地方,您也可以要求澄清。
关于algorithm - 3x3 Sobel 算子和梯度特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1237236/