.net - 如何从 UTF8 字符串中删除控制字符

标签 .net regex vb.net utf-8

我有一个处理文档内容的 VB.NET 程序。
该程序将大量文档作为“批量”处理(>200 万份文档；总 1TB 卷)
其中一些文档可能包含控制字符或 f0e8(http://www.fileformat.info/info/unicode/char/f0e8/browsertest.htm) 等字符。

有没有简单的特别是快删除该字符的方法？(除了空格，换行符，制表符，...)
如果答案是正则表达式:有没有人完整为我正则表达式？

谢谢!

最佳答案

尝试

resultString = Regex.Replace(subjectString, "\p{C}+", "");

这将从您的字符串中删除所有“其他”Unicode 字符(控制、格式、私有(private)使用、代理和未分配)。

关于.net - 如何从 UTF8 字符串中删除控制字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4500870/

上一篇：WPF 动画窗口可见性更改

下一篇：regex - 搜索和替换字符串，并在替换中放置一个计数器

相关文章：

python - 模式内有模式重复的正则表达式

.net - VB 中的 if() 函数和委托(delegate)

.net - ListViewItemCollection 的字符串数组

c# - 现在学习 C# 还是先学习 Java，然后再学习 C#？

.net - 在调试器中格式化第 3 方 .NET 对象

php - 使用正则表达式计算具有特定内容的 php 脚本

regex - 使用散列的 Perl 替换

vb.net - 打印自定义页面和当前页面？

c# - SSIS - 文件存在性检查未正确控制包任务流

VB.NET:SelectedIndexChanged 多次触发