.net - 如何从 UTF8 字符串中删除控制字符

标签 .net regex vb.net utf-8

我有一个处理文档内容的 VB.NET 程序。
该程序将大量文档作为“批量”处理(>200 万份文档;总 1TB 卷)
其中一些文档可能包含控制字符或 f0e8(http://www.fileformat.info/info/unicode/char/f0e8/browsertest.htm) 等字符。

有没有简单的特别是删除该字符的方法?(除了空格,换行符,制表符,...)
如果答案是正则表达式:有没有人 完整为我正则表达式?

谢谢!

最佳答案

尝试

resultString = Regex.Replace(subjectString, "\p{C}+", "");

这将从您的字符串中删除所有“其他”Unicode 字符(控制、格式、私有(private)使用、代理和未分配)。

关于.net - 如何从 UTF8 字符串中删除控制字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4500870/

相关文章:

python - 模式内有模式重复的正则表达式

.net - VB 中的 if() 函数和委托(delegate)

.net - ListViewItemCollection 的字符串数组

c# - 现在学习 C# 还是先学习 Java,然后再学习 C#?

.net - 在调试器中格式化第 3 方 .NET 对象

php - 使用正则表达式计算具有特定内容的 php 脚本

regex - 使用散列的 Perl 替换

vb.net - 打印自定义页面和当前页面?

c# - SSIS - 文件存在性检查未正确控制包任务流

VB.NET:SelectedIndexChanged 多次触发