ruby - 如何在 ruby​​ 1.8.7 中将网页撇号 (’) 转换为 ascii 39

标签 ruby

差不多就这些了。我正在使用 Nokogiri 来抓取包含 ’ ; 的网页。其中的字符,我无法弄清楚如何进行转换。这是我尝试过的:

str.gsub(/’/,"'")  
str.gsub("’","'")  
str.gsub("ΓÇÖ","'") # that's how it looks when I do a puts

(在上面,’和";"之间没有空格,但是如果我不把空格放进去,SO会把它转换成撇号——残酷,残酷的讽刺!)

我确定这在某处已涵盖,但无法在此处或网络上找到解决方案。

TIA

最佳答案

str.gsub("\342\200\231", "'") 应该有效

我从:

    '’'.to_s
=> "\342\200\231"

其他可以替换的 html 字符 ( http://ask.metafilter.com/62656/Eliminating-odd-characters-from-web-site ):

"\342\200\176" - "'"  
"\342\200\177" - "'"  
"\342\200\230" - "'"  
"\342\200\231" - "'"  
"\342\200\232" - ','  
"\342\200\233" - "'"  
"\342\200\234" - '"'  
"\342\200\235" - '"'  
"\342\200\041" - '-'  
"\342\200\174" - '-'  
"\342\200\220" - '-'  
"\342\200\223" - '-'  
"\342\200\224" - '--'  
"\342\200\225" - '--'  
"\342\200\042" - '--'  
"\342\200\246" - '...' 

关于ruby - 如何在 ruby​​ 1.8.7 中将网页撇号 (’) 转换为 ascii 39,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2812781/

相关文章:

ruby - 如何过滤和反过滤数组?

sql - 数据库日期时间值冲突

c - 为什么没有分配 RARRAY_LEN?

ruby - 在 ruby​​ 中对 nil 使用 method_missing 是个好主意吗

ruby-on-rails - ruby rails : Unable to retrieve regex from database

ruby - 如何将 lambda 传递给 Hash.each?

ruby-on-rails - 如何将大于 5GB 的文件上传到 Amazon S3?

sql - ruby on rails 为 oracle View /函数准备的语句

html - Ruby cgi 表错误

Ruby 在尝试使用 Rudyscript2exe 时出现 "can' t 修改卡住字符串“错误