ruby-on-rails - Rails v3/Ruby 1.9.2 中的字符编码问题

标签 ruby-on-rails ruby character-encoding

当我从文件中读取内容时,有时会收到此错误“UTF-8 中的无效字节序列”。注意 - 只有当字符串中有一些特殊字符时才会发生这种情况。我尝试打开不带“r:UTF-8”的文件,但仍然出现同样的错误。

open(file, "r:UTF-8").each_line { |line| puts line.strip(",") } # line.strip generates the error

文件内容:

# encoding: UTF-8
290919,"SE","26","Sk‰l","",59.4500,17.9500,, # this errors out
290956,"CZ","45","HornÌ Bradlo","",49.8000,15.7500,, # this errors out
290958,"NO","02","Svaland","",58.4000,8.0500,, # this works

这是我从外部获得的 CSV 文件,我正在尝试将其导入我的数据库,它的顶部没有带有“# encoding: UTF-8”,但我添加了这个,因为我在某处阅读它会修复了这个问题,但它没有。 :(

环境:

  • Rails v3.0.3
  • ruby 1.9.2p0(2010-08-18 修订版 29036)[x86_64-darwin10.5.0]

最佳答案

Ruby 对每个文件都有一个外部编码和内部编码的概念。这允许您在源代码中使用 UTF-8 格式的文件,即使该文件以更深奥的格式存储。如果你的默认外部编码是 UTF-8(如果你在 Mac OS X 上就是这样),你所有的文件 I/O 也将是 UTF-8。您可以使用 File.open('file').external_encoding 进行检查。当您打开文件并传递 "r:UTF-8" 时,您所做的是强制使用 Ruby 默认使用的相同外部编码。

很有可能,您的源文档不是 UTF-8 格式,并且那些非 ascii 字符没有完全映射到 UTF-8(如果是,您将获得正确的字符并且没​​有错误,如果它们映射不正确,你会得到不正确的字符,但没有错误)。您应该做的是尝试确定源文档的编码,然后让 Ruby 在读取时对文档进行转码,如下所示:

File.open(file, "r:windows-1251:utf-8").each_line { |line| puts line.strip(",") }

如果您需要帮助确定源编码,请提供 this Python library一个旋转。它基于 Seamonkey/Mozilla 中的自动字符集检测回退(可能仍在 Firefox 中)。

关于ruby-on-rails - Rails v3/Ruby 1.9.2 中的字符编码问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4697413/

相关文章:

ruby-on-rails - Rails 5 API 集成测试不适用于 jsonapi-resources

ruby-on-rails - 链接到资源

ruby - 您可以配置 Compass 以删除不需要的开发文件,即 sourcemaps 吗?

ruby-on-rails - 如何在 Rails 3 的功能测试中使用 polymorphic_path

sql-server - SSIS - ANSI 平面文件始终保存为 UTF-8(无 BOM)

java - ByteArrayOutputStream 编码问题

ruby-on-rails - Carrierwave:保存原始文件名不起作用

使用 % 和 LIKE 在 Rails 中进行 SQL 查询

ruby - 将 ruby​​ 的基准输出保存到文件中

python - utf16 与 utf-16