ruby-on-rails - 处理网页抓取中的无效字符

标签 ruby-on-rails ruby web-scraping mechanize

我已经编写了一个网络爬虫来使用 Nokigiri 和 Mechanize 从一个网站中提取大量信息，它输出一个数据库种子文件。不幸的是，我发现源网站上的文本中有很多无效字符，例如 keppnisÃ¦find , ScÃ©mario和 KlÃ¤tiring ，这会阻止种子文件运行。种子文件太大，无法进行搜索和替换，那么我该如何处理这个问题呢？

最佳答案

我认为那些是 html 字符，您需要做的就是编写清除字符的函数。这取决于编程平台

关于ruby-on-rails - 处理网页抓取中的无效字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11570211/

上一篇：python - 登录 Steam 网站

下一篇：Python Mechanize - unescape_charref() 无法处理十六进制代码

selenium-webdriver - 在Python3.6( Selenium 模块): ConnectionAbortedError: [WinError 10053] An established connection was aborted by the software in your host machine

ruby-on-rails - 单一规范持续时间

ruby-on-rails - rails postgres date_time 无法正常工作

Ruby 程序几乎所有时间都来自 sys 时间？

ruby-on-rails - 如何修改在操作中在 Controller 中设置的 `params`？

ruby-on-rails - 我是否需要将所有内容都放在 sidekiq 的 app/workers 中？

ruby-on-rails - Rails 3.2，如何更改:from value in a mailer instead default (GMail)

ruby-on-rails - 如何在 Rails 中使用关联搜索 group_by

javascript - Meteor 不等待函数的结果，返回未定义