ruby-on-rails - 处理网页抓取中的无效字符

标签 ruby-on-rails ruby web-scraping mechanize

我已经编写了一个网络爬虫来使用 Nokigiri 和 Mechanize 从一个网站中提取大量信息,它输出一个数据库种子文件。不幸的是,我发现源网站上的文本中有很多无效字符,例如 keppnisæfind , ScémarioKlätiring ,这会阻止种子文件运行。种子文件太大,无法进行搜索和替换,那么我该如何处理这个问题呢?

最佳答案

我认为那些是 html 字符,您需要做的就是编写清除字符的函数。这取决于编程平台

关于ruby-on-rails - 处理网页抓取中的无效字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11570211/

相关文章:

web-scraping - 这种反抓取技术对于 Robots.txt Crawl-Delay 是否可行?

selenium-webdriver - 在Python3.6( Selenium 模块): ConnectionAbortedError: [WinError 10053] An established connection was aborted by the software in your host machine

ruby-on-rails - 单一规范持续时间

ruby-on-rails - rails postgres date_time 无法正常工作

Ruby 程序几乎所有时间都来自 sys 时间?

ruby-on-rails - 如何修改在操作中在 Controller 中设置的 `params`?

ruby-on-rails - 我是否需要将所有内容都放在 sidekiq 的 app/workers 中?

ruby-on-rails - Rails 3.2,如何更改:from value in a mailer instead default (GMail)

ruby-on-rails - 如何在 Rails 中使用关联搜索 group_by

javascript - Meteor 不等待函数的结果,返回未定义