我有一些日语文本,但其中混杂了一些非日语汉字。我注意到它是因为我使用的日语字体不支持它们,并且浏览器使用不同的字体呈现它们。据我所知,这些字符在日语中没有使用,所以它们是错误地到达那里的(文本来自 OCR)。我用过this在文本中查找汉字,但它似乎会匹配所有汉字而不仅仅是汉字。有没有可靠的方法来检测那些非日语字符,例如检查 unicode 的某些部分?
我能想到的唯一解决方案是制作一个完整的正在使用的汉字列表(或者更像是找到一个),并检查每个字符是否在列表中,但我怀疑它可能有点慢。尽管如此,如果我找不到更好的方法来实现这一目标,我可能会用这种方式解决它。
最佳答案
Is there any reliable way to detect those non-japanese characters, like checking certain sections of unicode?
没有。您需要简单地枚举所有日语字符,例如查找您的字体支持的所有字符:Finding out what characters a font supports
(...)checking each character if it's on the list, but I suspect it might be a little slow.
不要使用列表,使用哈希集。如果您确实想要一个列表,请将其排序并使用二分搜索。那应该不会太慢。
关于javascript - 我可以检测文本中的非日文汉字吗,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24982637/