ruby - 使用 Ruby 逐行读取、编辑和写入文本文件

标签 ruby file io

有没有一种在 Ruby 中就地读取、编辑和写入文件的好方法?

在我的在线搜索中,我发现了一些建议将其全部读入一个数组,修改所述数组,然后写出所有内容。我觉得应该有更好的解决方案,尤其是当我要处理一个非常大的文件时。

类似于:

myfile = File.open("path/to/file.txt", "r+")

myfile.each do |line|
    myfile.replace_puts('blah') if line =~ /myregex/
end

myfile.close

replace_puts 将覆盖当前行,而不是像当前那样(覆盖)写入下一行,因为指针位于行尾(分隔符之后)。

因此,匹配 /myregex/ 的每一行都将被替换为“blah”。显然,就处理而言,我的想法比这更复杂,并且会在一行中完成,但想法是一样的——我想逐行读取文件,编辑某些行,然后完成后写出来。

也许有一种方法可以直接说“倒回到最后一个分隔符之后”?或者使用 each_with_index 并通过行索引号写入的某种方式?不过,我找不到任何类似的东西。

到目前为止,我最好的解决方案是逐行读取内容,将它们逐行写入新的(临时)文件(可能已编辑),然后用新的临时文件覆盖旧文件并删除。同样,我觉得应该有更好的方法 - 我认为我不必创建一个新的 1gig 文件来编辑现有 1GB 文件中的某些行。

最佳答案

一般来说,无法在文件中间进行任意编辑。这不是 Ruby 的缺陷。这是文件系统的局限性:大多数文件系统都可以在末尾轻松高效地增大或缩小文件,但不能在开头或中间增大或缩小文件。因此,除非其大小保持不变,否则您将无法就地重写一行。

修改一堆行有两种通用模型。如果文件不是太大,就全部读入内存,修改,再写回。例如,将“Kilroy was here”添加到文件每一行的开头:

path = '/tmp/foo'
lines = IO.readlines(path).map do |line|
  'Kilroy was here ' + line
end
File.open(path, 'w') do |file|
  file.puts lines
end

虽然简单,但这种技术有一个危险:如果程序在写入文件时被中断,您将丢失部分或全部文件。它还需要使用内存来保存整个文件。如果您担心其中任何一个问题,那么您可能更喜欢下一种技术。

正如您所注意到的,您可以写入一个临时文件。完成后,重命名临时文件以替换输入文件:

require 'tempfile'
require 'fileutils'

path = '/tmp/foo'
temp_file = Tempfile.new('foo')
begin
  File.open(path, 'r') do |file|
    file.each_line do |line|
      temp_file.puts 'Kilroy was here ' + line
    end
  end
  temp_file.close
  FileUtils.mv(temp_file.path, path)
ensure
  temp_file.close
  temp_file.unlink
end

由于重命名 (FileUtils.mv) 是原子的,重写的输入文件将立即弹出。如果程序被中断,文件将被重写,或者不会。它不可能被部分重写。

ensure 子句不是绝对必要的:当 Tempfile 实例被垃圾回收时,文件将被删除。但是,这可能需要一段时间。 ensure block 确保立即清理临时文件,而不必等待它被垃圾收集。

关于ruby - 使用 Ruby 逐行读取、编辑和写入文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4397412/

相关文章:

java - Pig latin 程序,switch/else 错误

unix - 如何从 Rust 写入特定的原始文件描述符?

ruby-on-rails - 合并两个都具有键值对的数组 (Ruby)

java - 根据对象数据生成唯一标识

java - 将大文件插入 Google 驱动器时出现 IOException "insufficient data written"

java - 如何更新.txt文件java中的内容

python - 从命令行读取 (x, y) 对流并将修改后的对 (x, f(y)) 写入文件

mysql - 使用 has_many 关系会导致额外的 MySQL 查询吗?

Ruby 总是四舍五入

css - 无法加载 css 形式 lib/assets 和供应商/assets