machine-learning - 如何获取汉字的分解

标签 machine-learning computer-vision ocr chinese-locale

总的来说,我是字符识别和机器学习的初学者。

我想编写一个能够处理以下输入的程序:

  • 一个汉字(矢量格式的任一像素),例如:

enter image description here

enter image description hereenter image description here以及它们水平对齐的信息。

一个汉字的分解总是三件事:2个其他字符以及描述这2个字符如何形成首字符的模式(称为组合类型)。在上面的示例中,构图类型是“水平对齐”。

给定这样的输入,我希望我的程序能够告诉初始字符中的哪些像素或哪些轮廓属于其分解中的哪个子字符。

从哪里开始?

最佳答案

嗯,我不能说我提供了完整的答案,但想一想:

1) 阅读有关 Google 翻译应用程序如何工作的论文。您知道,当您将 iPhone 的摄像头对准文本时,它会立即翻译文本(甚至保留字体!)。它支持中文,所以你会很感兴趣看看他们是否解决了类似的任务以及他们是如何做到的

2)另一个需要回答的大问题 - 如何准备输入数据。您将需要至少提供一些输入数据 - 即至少一些字符的分解。尝试对几个字符手动执行此操作,并尝试形式化您到底在做什么 - 这将帮助您更好地制定您希望算法执行的操作。

3) 尝试对 #2 中的数据使用一些深度神经网络。使用带有卷积层的东西。使用 RBM(受限玻尔兹曼机)对其进行预训练。之后 - 仔细研究生成的神经网络。不要期望得到任何好的结果,但研究 ANN 层将帮助您了解网络从数据中学到了什么,并可能提供一些关于下一步发展的见解

关于machine-learning - 如何获取汉字的分解,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31785704/

相关文章:

android - 如何使用 Java RESTful 客户端使用 Wisetrend OCR Web 服务?

image-processing - 合并边缘并填充区域

python - 无法从 'randn_tensor' 导入名称 'diffusers.utils'

c++ - OpenCV 检测多个、旋转、缩放的对象

python - 伽柏滤波器的最大值

image - 检测噪声图像中的弱 Blob

python - 为什么 GCP Vision API 在 python 中返回的结果比在线演示更差

r - 如何在 R 中计算 KNN 变量重要性

image - 对燃气表进行 OCR 识别

python - 使用 scikit-learn OneHotEncoder 时如何处理分类数据中的缺失值 (NaN)?