ruby-on-rails - Ruby 中的 Web 抓取 Mechanize 为浏览器生成不同的 html

标签 ruby-on-rails ruby web-scraping mechanize

我对 Ruby 和 Mechanize 比较陌生,但我在使用 asp 网站时遇到了一些困难

URL: http://www.adecco.co.uk/careercentre/job-search-results.aspx?kws=&pstc=&cty=&prvnm=&pdx=1


agent = Mechanize.new
page = agent.get('http://www.adecco.co.uk/careercentre/job-search-results.aspx?kws=&pstc=&cty=&prvnm=&pdx=1')
puts page.body

我正在研究 Mechanize 网站上的示例,问题是我通过 Mechanize 返回的 HTML 与我在浏览器中使用查看源代码获得的 HTML 非常不同,我需要完成的 HTML 吗?

更新

我不太确定在这里做什么,因为问题实际上是页面随后使用 jquery 呈现内容,所以我最终使用 Selenium 获取具有正确 html 的页面,这些都不是答案实际上是错误的,所以我都投了赞成票,但都没有真正解决问题?

谢谢

马克

最佳答案

试试下面的代码,

require 'mechanize'
require 'nokogiri'

agent = Mechanize.new
page = agent.get('http://www.adecco.co.uk/careercentre/job-search-results.aspx?kws=&pstc=&cty=&prvnm=&pdx=1')

document = Nokogiri::HTML(page.content)
puts document

关于ruby-on-rails - Ruby 中的 Web 抓取 Mechanize 为浏览器生成不同的 html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20386209/

相关文章:

java - 尝试使用 jsoup 操作网页的数据输入

ruby-on-rails - 是否可以在不将它们保存到数据库的情况下更改内存中的事件记录关联?

ruby-on-rails - Rails - 将 css 文件放在哪里?

ruby-on-rails - 带有 Jbuilder(或其他)的 Rails JSON API 布局

ruby - 使用 Ruby 在 Windows 上启动 Selenium 时出现 "unknown encoding name"错误

vba - 无法使用 xhr 从网页中获取一些信息

python - 查看页面源代码时发现抓取代码

ruby-on-rails - 如何将参数发送到回形针处理器

ruby - 如何使用 Net::HTTP 只读取正文的 x 个字节?

html - capybara 选择选项不起作用