rust - 如何在不重新分配的情况下将具有长度的 *const u8 转换为 &str?

标签 rust

我正在寻找实现此目标的最佳方式(希望是零成本):

fn to_str(str: *const u8, len: usize) -> Option<&str>;

len 是一个字符串的长度,它可以是也可以不是 null 终止的,str 是指向该字符串的指针。

我不想取得字符串的所有权,只需要将它作为 &str 传递。

最佳答案

Rust 的引用,例如 &strlifetime 相关联。此生命周期附加到拥有底层数据的值,通常是像 StringVec 或数组这样的容器。因此,要获得有效的 &str,您需要一个所有者。您不想获得数据的所有权,因为您不想复制它。然而,拥有并不意味着复制,它只是意味着对数据的变异和破坏承担全部责任。

要拥有由来自 C 的 malloc() 的指针表示的数据而不复制数据,您可以包装指针:

pub struct MyString {
    data: *const u8,
    length: usize,
}

impl MyString {
    // safety: data must point to nul-terminated memory allocated with malloc()
    pub unsafe fn new(data: *const u8, length: usize) -> MyString {
        // Note: no reallocation happens here, we use `str::from_utf8()` only to
        // check whether the pointer contains valid UTF-8.
        // If panic is unacceptable, the constructor can return a `Result`
        if std::str::from_utf8(std::slice::from_raw_parts(data, length)).is_err() {
            panic!("invalid utf-8")
        }
        MyString { data, length }
    }

    pub fn as_str(&self) -> &str {
        unsafe {
            // from_utf8_unchecked is sound because we checked in the constructor
            std::str::from_utf8_unchecked(std::slice::from_raw_parts(self.data, self.length))
        }
    }
}

impl Drop for MyString {
    fn drop(&mut self) {
        unsafe {
            libc::free(self.data as *mut _);
        }
    }
}

这仅在使用 MyString::new() 构造包装器时需要不安全,因为它采用原始指针,其有效性无法在编译时检查。之后包装器给你 &str 你可以在没有任何不安全的情况下传递:

fn main() {
    let raw_str = unsafe { libc::strdup(b"foo\0".as_ptr() as _) as *const u8 };
    let s = unsafe { MyString::new(raw_str, 3) };
    // from here on, it's all-safe code
    let slice = s.as_str();  // now you get a slice to pass around
    assert_eq!(slice, "foo");
}

Playground

如果您不希望MyString 释放数据,那么您可以简单地删除Drop 实现。在任何一种情况下,new() 都具有安全不变性,即当 MyString 处于事件状态时,不得释放数据。

C 字符串和 Rust &str 之间的最后一个区别是 Rust 字符串保证是 UTF-8,并且创建非 UTF-8 字符串(只能在不安全代码中完成)构成undefined behavior .这就是为什么 MyString::new()MyString::as_str() 需要验证字符串是否包含有效的 UTF-8。将检查放在 new() 中确保检查最多完成一次。您可以删除检查,但 new() 会得到另一个安全不变量,它不太可能被创建字符串的 C 代码遵守。

要表示任意二进制数据,您可以使用&[u8] 代替&str,或者使用类似bstr 的箱子这为您提供了具有 &str 所有便利的“字节字符串”,但不需要 UTF-8 要求。

关于rust - 如何在不重新分配的情况下将具有长度的 *const u8 转换为 &str?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70719073/

相关文章:

functional-programming - 函数的生命周期在函数指针分配和初始化中表现不同

rust - 嵌套闭包借用失败

rust - 如何将结构与指定的字节边界对齐?

rust - 有没有办法获取对 Vec<T> 的可变子切片的引用?

rust - 无法从匹配臂返回对成员的可变引用

vector - 我怎样才能获得 Vec 元素的所有权并将其替换为其他元素?

rust - 比较 RefCell<T> 中包含的值

hashmap - 模式匹配选项时引用具有不兼容类型的匹配臂时抛出错误

rust - 你如何在 rust 中为 'everything else' 设置默认的#[cfg] 目标?

rust - 如何创建将输入转换为元组的宏?