performance - 为什么我的 Rust 程序比等效的 Java 程序慢?

标签 performance rust file-io benchmarking microbenchmark

我在 Rust 中玩二进制序列化和反序列化并注意到二进制反序列化比 Java 慢几个数量级。为了消除由于分配和开销等原因导致的开销的可能性,我只是从每个程序中读取一个二进制流。每个程序都从磁盘上的一个二进制文件中读取,该文件包含一个包含输入值数量的 4 字节整数和一个连续的 8 字节大端 IEEE 754 block 。 -编码的 float 。这是 Java 实现:

import java.io.*;

public class ReadBinary {
    public static void main(String[] args) throws Exception {
        DataInputStream input = new DataInputStream(new BufferedInputStream(new FileInputStream(args[0])));
        int inputLength = input.readInt();
        System.out.println("input length: " + inputLength);
        try {
            for (int i = 0; i < inputLength; i++) {
                double d = input.readDouble();
                if (i == inputLength - 1) {
                    System.out.println(d);
                }
            }
        } finally {
            input.close()
        }
    }
}

这是 Rust 实现:

use std::fs::File;
use std::io::{BufReader, Read};
use std::path::Path;

fn main() {
    let args = std::env::args_os();
    let fname = args.skip(1).next().unwrap();
    let path = Path::new(&fname);
    let mut file = BufReader::new(File::open(&path).unwrap());
    let input_length: i32 = read_int(&mut file);
    for i in 0..input_length {
        let d = read_double_slow(&mut file);
        if i == input_length - 1 {
            println!("{}", d);
        }
    }
}

fn read_int<R: Read>(input: &mut R) -> i32 {
    let mut bytes = [0; std::mem::size_of::<i32>()];
    input.read_exact(&mut bytes).unwrap();
    i32::from_be_bytes(bytes)
}

fn read_double_slow<R: Read>(input: &mut R) -> f64 {
    let mut bytes = [0; std::mem::size_of::<f64>()];
    input.read_exact(&mut bytes).unwrap();
    f64::from_be_bytes(bytes)
}

我正在输出最后一个值以确保所有输入都被实际读取。在我的机器上,当文件包含(相同的)3000 万个随机生成的 double 时,Java 版本运行时间为 0.8 秒,而 Rust 版本运行时间为 40.8 秒。

怀疑 Rust 的字节解释本身效率低下,我用自定义浮点反序列化实现重试了它。内部结构是 almost exactly the same as what's being done in Rust's Reader ,没有 IoResult 包装器:

fn read_double<R : Reader>(input: &mut R, buffer: &mut [u8]) -> f64 {
    use std::mem::transmute;
    match input.read_at_least(8, buffer) {
        Ok(n) => if n > 8 { fail!("n > 8") },
        Err(e) => fail!(e)
    };
    let mut val = 0u64;
    let mut i = 8;
    while i > 0 {
        i -= 1;
        val += buffer[7-i] as u64 << i * 8;
    }
    unsafe {
        transmute::<u64, f64>(val);
    }
}

为了完成这项工作,我对早期 Rust 代码所做的唯一更改是创建一个 8 字节的切片,以传入并(重新)用作 read_double 函数中的缓冲区。这产生了显着的性能提升,平均运行时间约为 5.6 秒。不幸的是,这仍然明显比 Java 版本慢(而且更冗长!),因此很难扩展到更大的输入集。有什么办法可以让 Rust 运行得更快吗?更重要的是,是否可以将这些更改合并到默认的 Reader 实现本身,从而减轻二进制 I/O 的痛苦?

作为引用,这是我用来生成输入文件的代码:

import java.io.*;
import java.util.Random;

public class MakeBinary {
    public static void main(String[] args) throws Exception {
        DataOutputStream output = new DataOutputStream(new BufferedOutputStream(System.out));
        int outputLength = Integer.parseInt(args[0]);
        output.writeInt(outputLength);
        Random rand = new Random();
        for (int i = 0; i < outputLength; i++) {
            output.writeDouble(rand.nextDouble() * 10 + 1);
        }
        output.flush();
    }
}

(请注意,生成随机数并将它们写入磁盘在我的测试机器上只需要 3.8 秒。)

最佳答案

Have you tried running Cargo with --release?

当您在没有优化的情况下构建时,它通常会比在 Java 中慢。但是通过 优化(rustc -Ocargo --release)构建它,它应该会快得多。如果它的标准版本最终仍然变慢,那么应该仔细检查它以找出缓慢的地方 - 也许正在内联不应该的东西,或者不应该的东西,或者可能是一些预期的优化没有发生。

关于performance - 为什么我的 Rust 程序比等效的 Java 程序慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25255736/

相关文章:

c - 为什么经过检测的 C 程序运行得更快?

performance - OpenCL 内核上的 GPU 性能缓慢

performance - 索引 numpy 记录数组非常慢

javascript - 这里的jquery代码有区别吗?

rust - 如何动态访问结构属性?

rust - mio 中缓冲区类型的问题

rust - 借用循环内使用的可变成员

node.js - ENOENT 在 Express Endpoint 上没有用于 readFileSync 的此类文件

java - 从 Java 编写 excel 文件的最佳方法是什么?

java - 更新 Android 应用中的原始资源