在 MNIST 集上训练模型后,我现在如何将图像分类为具有两位数?更一般地说,如何训练模型来检测图像上的任意数量的数字?
最佳答案
有一个名为“对象检测”的热门领域,它试图做你想做的事情。一般来说,您可以从任何图像甚至视频中检测任何内容(数字、人、汽车等)。
最先进的技术大致分为两类:
- Faster-RCNN ,它首先为您感兴趣的对象提出许多候选窗口,然后检测这些窗口内实际存在的内容。
- SSD ,它只扫描图像一次并检测物体,速度更快,但与 Faster-RCNN 相比不太可靠。
著名的实时物体检测方法是YOLO(You Only Look Once),它属于SSD类别,并且有非常令人印象深刻的实时演示here ,给你一种物体检测的感觉。搜索这些方法的名称,你会发现很多满足你需求的示例代码。
如果您只是在寻找数字检测,还可以查看围绕斯坦福大学 House Number Dataset 的工作。但请注意,这些作品通常是五年前或更早的作品,并不一定能击败 Faster-RCNN 和 SSD 等通用方法。
关于machine-learning - 在 MNIST 上进行训练,检测数字序列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46208481/