java - 使用线程从文件中预取有用吗?

标签 java multithreading io

使用多线程加速 IO may work ,但我需要通过单个线程顺序处理一个巨大的文件(或目录树)。但是我可以想象两种可能的方法来加速从文件中的读取:

馈线

主线程从辅助线程提供的 PipedInputStream(或类似的)中获取所有数据,辅助线程是唯一访问该文件的线程。同步开销较高,但与操作系统(底层库通信)的通信较少。这对于单个文件来说很简单,但对于目录树来说非常复杂。

预取器

主线程打开new FileInputStream(file)并读取它,就好像它是单独的一样。辅助线程在同一文件上打开它自己的流并提前读取。主线程不需要等待磁盘,因为它从操作系统缓存中获取所有数据。应该有一些简单的同步,以确保辅助线程不会提前运行太远。这可以适用于目录树,而无需太多额外的工作。

问题

  • 您建议尝试哪个想法(如果有)?
  • 你用过这样的东西吗?
  • 还有其他想法吗?

最佳答案

我有一个应用程序可以读取多个文件,从中创建 xml 并将其发送到服务器。
在这种情况下,有一个专用的“供给器”(读取文件并将它们放入队列中)和一些“发送器”(创建 xml 并将其发送到服务器)会有所帮助。

如果您正在执行中等到密集的 CPU 消耗工作(例如 XML 解析),那么即使在单核计算机上,拥有 2 个线程(1 个读取和 1 个进程)也可能会有所帮助。我不会太担心同步开销。当争用很少时,在等待 IO 的同时做工作的 yield 会大得多。如果你的线程时不时地等待IO,那么会有更多的好处。

我建议阅读this chapter from JCiP 。它解决了这个主题。

关于java - 使用线程从文件中预取有用吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5228138/

相关文章:

java - Gradle Artifactory 插件不生成 Pom 文件

java - 将列表反序列化为特定属性

java - 连接 jdbc postgreSQL Android Studio 出错 - : Ljava/lang/management/ManagementFactory; 解析失败

c# - 可以在后台线程构建表单,然后在 UI 线程上显示

C++ 打开一个文件并写入文件的任意位置

java - 扫描程序在使用next()或nextFoo()之后跳过nextLine()吗?

java - 使用 Commons VFS 进行 Http 文件传输

multithreading - 多线程 alpha-beta 剪枝的效果如何?

linux - mq_send 是原子的吗?

c++ - 读取zlib/miniz压缩数据时出现DATA_ERROR