有没有一种在 Ruby 中就地读取、编辑和写入文件的好方法?
在我的在线搜索中,我发现了一些建议将其全部读入一个数组,修改所述数组,然后写出所有内容。我觉得应该有更好的解决方案,尤其是当我要处理一个非常大的文件时。
类似于:
myfile = File.open("path/to/file.txt", "r+")
myfile.each do |line|
myfile.replace_puts('blah') if line =~ /myregex/
end
myfile.close
replace_puts
将覆盖当前行,而不是像当前那样(覆盖)写入下一行,因为指针位于行尾(分隔符之后)。
因此,匹配 /myregex/
的每一行都将被替换为“blah”。显然,就处理而言,我的想法比这更复杂,并且会在一行中完成,但想法是一样的——我想逐行读取文件,编辑某些行,然后完成后写出来。
也许有一种方法可以直接说“倒回到最后一个分隔符之后”?或者使用 each_with_index
并通过行索引号写入的某种方式?不过,我找不到任何类似的东西。
到目前为止,我最好的解决方案是逐行读取内容,将它们逐行写入新的(临时)文件(可能已编辑),然后用新的临时文件覆盖旧文件并删除。同样,我觉得应该有更好的方法 - 我认为我不必创建一个新的 1gig 文件来编辑现有 1GB 文件中的某些行。
最佳答案
一般来说,无法在文件中间进行任意编辑。这不是 Ruby 的缺陷。这是文件系统的局限性:大多数文件系统都可以在末尾轻松高效地增大或缩小文件,但不能在开头或中间增大或缩小文件。因此,除非其大小保持不变,否则您将无法就地重写一行。
修改一堆行有两种通用模型。如果文件不是太大,就全部读入内存,修改,再写回。例如,将“Kilroy was here”添加到文件每一行的开头:
path = '/tmp/foo'
lines = IO.readlines(path).map do |line|
'Kilroy was here ' + line
end
File.open(path, 'w') do |file|
file.puts lines
end
虽然简单,但这种技术有一个危险:如果程序在写入文件时被中断,您将丢失部分或全部文件。它还需要使用内存来保存整个文件。如果您担心其中任何一个问题,那么您可能更喜欢下一种技术。
正如您所注意到的,您可以写入一个临时文件。完成后,重命名临时文件以替换输入文件:
require 'tempfile'
require 'fileutils'
path = '/tmp/foo'
temp_file = Tempfile.new('foo')
begin
File.open(path, 'r') do |file|
file.each_line do |line|
temp_file.puts 'Kilroy was here ' + line
end
end
temp_file.close
FileUtils.mv(temp_file.path, path)
ensure
temp_file.close
temp_file.unlink
end
由于重命名 (FileUtils.mv
) 是原子的,重写的输入文件将立即弹出。如果程序被中断,文件将被重写,或者不会。它不可能被部分重写。
ensure
子句不是绝对必要的:当 Tempfile 实例被垃圾回收时,文件将被删除。但是,这可能需要一段时间。 ensure
block 确保立即清理临时文件,而不必等待它被垃圾收集。
关于ruby - 使用 Ruby 逐行读取、编辑和写入文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4397412/