screen-scraping - 使用 Nokogiri 进行抓取的链接

标签 screen-scraping nokogiri

有没有一种方法可以使用 Nokogiri 进行抓取来跟踪链接?我知道我可以提取 href 并打开它,但我想我看到了一种使用 hpricot 执行此操作的方法,并且想知道 Nokogiri 中是否有类似的东西。

最佳答案

这是一个很棒的 screen scraping guide用于使用 Ruby、Nokigiri、Hpricot 和 Firebug。

我个人非常喜欢使用 Mechanize ,这是一个 headless 浏览器,用于屏幕抓取。您可以使用 mechanize 来导航链接并填写表单,它将处理所有棘手的内容,例如 cookie。

关于screen-scraping - 使用 Nokogiri 进行抓取的链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2807500/

相关文章:

screen-scraping - 用于桌面/Windows 应用程序的数据抓取工具

python - 在 Scrapy 中使用 start_request 和使用 cookie 在网站上工作的正确方法是什么

ruby-on-rails - ElasticBeanstalk - Rails Nokogiri 部署问题

css - 如何使用 Nokogiri(以及 XPATH 和 CSS)提取 HTML 链接和文本

ruby - 使用正则表达式修改 nokogiri 中的类

css - 当节点具有 xmlns 属性时,Nokogiri 查找 css 失败

ruby - 修改 html 节点内的文本 - nokogiri

javascript - 如何获取《华尔街日报》背后的原始数据

python - Scrapy pipeline.py 没有从蜘蛛将项目插入到 MYSQL

search - 为垂直搜索引擎开发爬虫和抓取工具