ruby - 使用 Mechanize 读取本地 HTML 文件

标签 ruby mechanize

我正在构建一个爬虫,我知道如何使用 ruby​​ mechanize 使用以下代码从网上读取页面:

require 'mechanize'
agent = Mechanize.new
agent.get "http://google.com"

但是我可以使用 Mechanize 从文件系统中读取 HTML 文件吗?怎么办?

最佳答案

仅使用 file://协议(protocol)对我来说效果很好:

html_dir = File.dirname(__FILE__)
page = agent.get("file:///#{html_dir}/example-file.html")

关于为什么有人会使用 mechanize 来读取本地 html 文件的问题:我发现出于测试目的它是必要的 - 只需在本地存储一个示例文件并针对它运行你的 rspec。

关于ruby - 使用 Mechanize 读取本地 HTML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7586627/

相关文章:

ruby - 具有身份验证的私有(private) Ruby Gem 服务器

python - 如何使用 Python 自动填写在线表单中的文本区域?

python - 我如何使用 Mechanize 接受和发送 cookie?

python - 使用 Mechanize 获取证书验证失败错误

ruby-on-rails - 在没有本地存储的情况下通过 Rails 从网站下载图像到 CouchDB 附件?

ruby-on-rails - ruby-1.9.3-p125 ssl 错误

ruby - 表单提交后的 watir

ruby - 为什么这个 ruby 正则表达式不起作用?

ruby-on-rails - 更新旧记录而不是创建新记录?

ruby - 使用 Mechanize gem 登录