c# - 流式传输为 UTF8 字符串,不带 byte[]

标签 c# .net performance character-encoding stream

我有一个流,其接下来的N个字节是UTF8编码的字符串。我想以最少的开销创建该字符串。

这有效:

var bytes = new byte[n];
stream.Read(bytes, 0, n); // my actual code checks return value
var str = Encoding.UTF8.GetString(bytes);

在我的基准测试中,我发现花费了大量时间以 byte[] 的形式收集垃圾。临时工。如果我可以摆脱这些,我可以有效地将堆分配减半。

UTF8Encoding 类没有使用流的方法。

如果有帮助的话,我可以使用不安全的代码。我无法重复使用 byte[]没有ThreadLocal<byte[]>的缓冲区这似乎带来的开销多于它减轻的开销。我确实需要支持 UTF8(ASCII 不会削减它)。

这里有我缺少的 API 或技术吗?

最佳答案

如果使用可变长度的 UTF8 编码,则无法避免分配 byte[]。因此只有读取所有这些字节后才能确定结果字符串的长度。

让我们看看 UTF8Encoding.GetString方法:

public override unsafe String GetString(byte[] bytes, int index, int count)
{
    // Avoid problems with empty input buffer
    if (bytes.Length == 0) return String.Empty;

    fixed (byte* pBytes = bytes)
        return String.CreateStringFromEncoding(
            pBytes + index, count, this);
}

它调用 String.CreateStringFromEncoding方法首先获取结果字符串长度,然后分配它并用字符填充它,而无需额外分配。 UTF8Encoding.GetChars也不分配任何内容。

unsafe static internal String CreateStringFromEncoding(
    byte* bytes, int byteLength, Encoding encoding)
{
    int stringLength = encoding.GetCharCount(bytes, byteLength, null);

    if (stringLength == 0)
        return String.Empty;

    String s = FastAllocateString(stringLength);
    fixed (char* pTempChars = &s.m_firstChar)
    {
        encoding.GetChars(bytes, byteLength, pTempChars, stringLength, null);
    }
}

如果您将使用固定长度编码,那么您可以直接分配一个字符串并对其使用Encoding.GetChars。但多次调用 Stream.ReadByte 会降低性能,因为没有 Stream.Read 接受 byte* 作为参数。

const int bufferSize = 256;

string str = new string('\0', n / bytesPerCharacter);
byte* bytes = stackalloc byte[bufferSize];

fixed (char* pinnedChars = str)
{
    char* chars = pinnedChars;

    for (int i = n; i >= 0; i -= bufferSize)
    {
        int byteCount = Math.Min(bufferSize, i);
        int charCount = byteCount / bytesPerCharacter;

        for (int j = 0; j < byteCount; ++j)
            bytes[j] = (byte)stream.ReadByte();

        encoding.GetChars(bytes, byteCount, chars, charCount);

        chars += charCount;
    }
}

所以你已经使用了更好的方法来获取字符串。在这种情况下唯一可以做的就是实现 ByteArrayCache 类。它应该类似于 StringBuilderCache .

public static class ByteArrayCache
{
    [ThreadStatic]
    private static byte[] cachedInstance;

    private const int maxArraySize = 1024;

    public static byte[] Acquire(int size)
    {
        if (size <= maxArraySize)
        {
            byte[] instance = cachedInstance;

            if (cachedInstance != null && cachedInstance.Length >= size)
            {
                cachedInstance = null;
                return instance;
            }
        }

        return new byte[size];
    }

    public static void Release(byte[] array)
    {
        if ((array != null && array.Length <= maxArraySize) &&
            (cachedInstance == null || cachedInstance.Length < array.Length))
        {
            cachedInstance = array;
        }
    }
}

用法:

var bytes = ByteArrayCache.Acquire(n);
stream.Read(bytes, 0, n);

var str = Encoding.UTF8.GetString(bytes);
ByteArrayCache.Release(bytes);

关于c# - 流式传输为 UTF8 字符串,不带 byte[],我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34478171/

相关文章:

c# - 当 .NET 线程抛出异常时会发生什么?

c# - 如何读取 XML 以创建 resx 文件

ruby-on-rails - Gem 的数量如何影响 Rails 应用程序的性能?

java - Switch 似乎比 if 慢

c# - 使用主页时 Response.Redirect 的问题

c# - 无法在 Windows XP Embedded 上启动以 .NET 2.0 编写的服务

css - 根据 Session 更改按钮类

c# - 在 C# 中处理跨线程事件的最佳方法是什么

c++ - 如何在 C++ 中的 2 个函数集之间切换?

c# - 如何更改组合框显示的内容