我已经编写了一个网络爬虫来使用 Nokigiri 和 Mechanize 从一个网站中提取大量信息,它输出一个数据库种子文件。不幸的是,我发现源网站上的文本中有很多无效字符,例如 keppnisæfind
, Scémario
和 Klätiring
,这会阻止种子文件运行。种子文件太大,无法进行搜索和替换,那么我该如何处理这个问题呢?
最佳答案
我认为那些是 html 字符,您需要做的就是编写清除字符的函数。这取决于编程平台
关于ruby-on-rails - 处理网页抓取中的无效字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11570211/