javascript - 我可以检测文本中的非日文汉字吗

标签 javascript regex unicode

我有一些日语文本，但其中混杂了一些非日语汉字。我注意到它是因为我使用的日语字体不支持它们，并且浏览器使用不同的字体呈现它们。据我所知，这些字符在日语中没有使用，所以它们是错误地到达那里的(文本来自 OCR)。我用过this在文本中查找汉字，但它似乎会匹配所有汉字而不仅仅是汉字。有没有可靠的方法来检测那些非日语字符，例如检查 unicode 的某些部分？

我能想到的唯一解决方案是制作一个完整的正在使用的汉字列表(或者更像是找到一个)，并检查每个字符是否在列表中，但我怀疑它可能有点慢。尽管如此，如果我找不到更好的方法来实现这一目标，我可能会用这种方式解决它。

最佳答案

Is there any reliable way to detect those non-japanese characters, like checking certain sections of unicode?

没有。您需要简单地枚举所有日语字符，例如查找您的字体支持的所有字符:Finding out what characters a font supports

(...)checking each character if it's on the list, but I suspect it might be a little slow.

不要使用列表，使用哈希集。如果您确实想要一个列表，请将其排序并使用二分搜索。那应该不会太慢。

关于javascript - 我可以检测文本中的非日文汉字吗，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24982637/

上一篇：javascript - 我可以完全在 Controller 中创建 Symfony 表单提交吗？

下一篇：javascript - 开发 JavaScript 以进行缩小

相关文章：

javascript - 对恶意用户隐藏数据 JavaScript 函数

javascript - 如果文档中没有设置文档类型，如何确定文档类型？

regex - 带正则表达式的 Linux 命令行 Zip

python - 文本文件中的克拉 Z 符号

Javascript正则表达式在文件末尾提取计数

Python不连接字符串和unicode来链接

javascript - 如何在配置了 ESLINT 和 Prettier 的行尾使用 NOSONAR？

javascript - react 路由器 : How to keep logged in data (props) when re-routing

python - 为什么打印到 utf-8 文件会失败？

python - Django:追踪 DjangoUnicodeDecodeError 错误