我有一个处理文档内容的 VB.NET 程序。
该程序将大量文档作为“批量”处理(>200 万份文档;总 1TB 卷)
其中一些文档可能包含控制字符或 f0e8(http://www.fileformat.info/info/unicode/char/f0e8/browsertest.htm) 等字符。
有没有简单的特别是快删除该字符的方法?(除了空格,换行符,制表符,...)
如果答案是正则表达式:有没有人 完整为我正则表达式?
谢谢!
最佳答案
尝试
resultString = Regex.Replace(subjectString, "\p{C}+", "");
这将从您的字符串中删除所有“其他”Unicode 字符(控制、格式、私有(private)使用、代理和未分配)。
关于.net - 如何从 UTF8 字符串中删除控制字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4500870/