是否有一个通用(非)单词正则表达式可以涵盖这个地球上所有字符的突变?我正在开发一个应该处理所有语言的应用程序。 从技术上讲,我想按单词分割句子。用非单词字符 (\W) 分割它们也会被 'ä' 分割。一个static workaround不是一个选择,因为明确涵盖这个世界上的所有突变(éçḮñ 和数千个)是不可能的。
最佳答案
我无法为您提供适用于所有语言的东西,因为我不知道足够多的语言来判断是否会出现边缘情况。
我的建议:
- 按空格分割 (
\s+
)。 - 修剪第 1 步中得到的每个“单词”的开头/结尾处的标点字符(将
^\p{P}+|\p{P}+$
替换为空 - QRegularExpression docs 表示它完全支持 Unicode,所以希望这会起作用)
除非您关心在 This is Charles' car
等示例中保留标点符号,否则这应该会大有帮助,而无需删除 it's
或 Marne 等单词中的标点符号-塞纳河畔
。
关于c++ - 通用正则表达式变音解决方案?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34876352/