text - 如何将带圆圈的数字转换为数字? (① 到 1)

标签 text encoding ocr utf cjk

我想从对日语文本进行 OCR 识别后收到的字符串中转换数字。

例如,当我提取日期时:

③① 年 ⑫ 月 ①③ 日

我想将其转换为:
31 年 12 月 13 日

实现它的最佳方法是什么?

最佳答案

我会用 unicodedata

import unicodedata
print(unicodedata.normalize("NFKC","③① 年 ⑫ 月 ①③ 日"))

结果是这样的
31 年 12 月 13 日

这也转换了日语数字的其他变体,全角数字。
import unicodedata
print(unicodedata.normalize("NFKC","123①②③123"))


123123123

关于text - 如何将带圆圈的数字转换为数字? (① 到 1),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54798701/

相关文章:

python - 在 Pytesser 中使用多种语言

iphone - 如何将 CGFloat 设置为 UILabel 的文本属性

java - 使用不带数组的扫描仪从文本文件中删除重复数据 (Java)

ruby-on-rails - rails paypal 通知验证日语

javascript - 如何将 NumPy 字符串转换为较短的版本,然后恢复为正常形式?

image - 自动裁剪图像的批处理工具?

C# text.Replace 保留大小写

java - 如何为 Java CharsetDecoder 生成 'un-mappable' 输入?

java - 汉字Java的UTF编码

java - 如何使用 Tesseract 提高 OCR 质量?