我正在构建一个爬虫,我知道如何使用 ruby mechanize 使用以下代码从网上读取页面:
require 'mechanize'
agent = Mechanize.new
agent.get "http://google.com"
但是我可以使用 Mechanize 从文件系统中读取 HTML 文件吗?怎么办?
最佳答案
仅使用 file://协议(protocol)对我来说效果很好:
html_dir = File.dirname(__FILE__)
page = agent.get("file:///#{html_dir}/example-file.html")
关于为什么有人会使用 mechanize 来读取本地 html 文件的问题:我发现出于测试目的它是必要的 - 只需在本地存储一个示例文件并针对它运行你的 rspec。
关于ruby - 使用 Mechanize 读取本地 HTML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7586627/