ruby - 在使用 Mechanize 进行抓取时，我总是在 Ruby 2.0 中遇到 UndefinedConversionError

当我尝试使用 Mechanize 和 Ruby 2.0 提交文本区域时，我总是得到一个

Encoding::UndefinedConversionError: U+0151 from UTF-8 to ISO-8859-1

然后我尝试用 Iconv 转换文本，我得到了类似的结果:

Iconv.iconv("LATIN1", "UTF-8", text)

我收到此错误消息:

Iconv::IllegalSequence: "őzködik, melyet "...

由于文本包含东欧字符。我该怎么做才能避免这种不便或如何在不同编码之间正确转换？

最佳答案

我找到了一个优雅的解决方案:

replacements = [["À", "&#192;"], ["Á", "&#193;"], ["Â", "&#194;"], ["Ã", "&#195;"], ["Ä", "&#196;"], ["Å", "&#197;"], ["Æ", "&#198;"], ["Ç", "&#199;"], ["È", "&#200;"], ["É", "&#201;"], ["Ê", "&#202;"], ["Ë", "&#203;"], ["Ì", "&#204;"], ["Í", "&#205;"], ["Î", "&#206;"], ["Ï", "&#207;"], ["Ð", "&#208;"], ["Ñ", "&#209;"], ["Ò", "&#210;"], ["Ó", "&#211;"], ["Ô", "&#212;"], ["Õ", "&#213;"], ["Ö", "&#214;"], ["Ø", "&#216;"], ["Ù", "&#217;"], ["Ú", "&#218;"], ["Û", "&#219;"], ["Ü", "&#220;"], ["Ý", "&#221;"], ["Þ", "&#222;"], ["ß", "&#223;"], ["à", "&#224;"], ["á", "&#225;"], ["â", "&#226;"], ["ã", "&#227;"], ["ä", "&#228;"], ["å", "&#229;"], ["æ", "&#230;"], ["ç", "&#231;"], ["è", "&#232;"], ["é", "&#233;"], ["ê", "&#234;"], ["ë", "&#235;"], ["ì", "&#236;"], ["í", "&#237;"], ["î", "&#238;"], ["ï", "&#239;"], ["ð", "&#240;"], ["ñ", "&#241;"], ["ò", "&#242;"], ["ó", "&#243;"], ["ô", "&#244;"], ["õ", "&#245;"], ["ö", "&#246;"], ["ø", "&#248;"], ["ù", "&#249;"], ["ú", "&#250;"], ["û", "&#251;"], ["ü", "&#252;"], ["ý", "&#253;"], ["þ", "&#254;"], ["ÿ", "&#255;"]]

def replace(str,replacements)
 replacements.each {|replacement| str.gsub!(replacement[0], replacement[1])}
 return str
end

my_string=replace(my_string,replacements)

关于ruby - 在使用 Mechanize 进行抓取时，我总是在 Ruby 2.0 中遇到 UndefinedConversionError，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18559293/

ruby - 在使用 Mechanize 进行抓取时，我总是在 Ruby 2.0 中遇到 UndefinedConversionError

上一篇：ruby-on-rails - 安装 'requirements' 时 rvm 挂起

下一篇：用于分布式计算的 Ruby 库？