javascript - 我可以检测文本中的非日文汉字吗

标签 javascript regex unicode

我有一些日语文本,但其中混杂了一些非日语汉字。我注意到它是因为我使用的日语字体不支持它们,并且浏览器使用不同的字体呈现它们。据我所知,这些字符在日语中没有使用,所以它们是错误地到达那里的(文本来自 OCR)。我用过this在文本中查找汉字,但它似乎会匹配所有汉字而不仅仅是汉字。有没有可靠的方法来检测那些非日语字符,例如检查 unicode 的某些部分?

我能想到的唯一解决方案是制作一个完整的正在使用的汉字列表(或者更像是找到一个),并检查每个字符是否在列表中,但我怀疑它可能有点慢。尽管如此,如果我找不到更好的方法来实现这一目标,我可能会用这种方式解决它。

最佳答案

Is there any reliable way to detect those non-japanese characters, like checking certain sections of unicode?

没有。您需要简单地枚举所有日语字符,例如查找您的字体支持的所有字符:Finding out what characters a font supports

(...)checking each character if it's on the list, but I suspect it might be a little slow.

不要使用列表,使用哈希集。如果您确实想要一个列表,请将其排序并使用二分搜索。那应该不会太慢。

关于javascript - 我可以检测文本中的非日文汉字吗,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24982637/

相关文章:

javascript - 对恶意用户隐藏数据 JavaScript 函数

javascript - 如果文档中没有设置文档类型,如何确定文档类型?

regex - 带正则表达式的 Linux 命令行 Zip

python - 文本文件中的克拉 Z 符号

Javascript正则表达式在文件末尾提取计数

Python不连接字符串和unicode来链接

javascript - 如何在配置了 ESLINT 和 Prettier 的行尾使用 NOSONAR?

javascript - react 路由器 : How to keep logged in data (props) when re-routing

python - 为什么打印到 utf-8 文件会失败?

python - Django:追踪 DjangoUnicodeDecodeError 错误