ruby - 使用 Mechanize (Ruby) 解析格式错误的 HTML

标签 ruby web-scraping mechanize

我想处理一个包含大量 HTML 但本身不是有效 HTML 文件的 HTTP 响应。

我知道我可以按如下方式使用 Nokogiri:page = Nokogiri::HTML.parse(page.body) ,但是,我想访问 Mechanize方法如 Mechanize::Page.search .有什么方法可以将此 HTML 用作 Mechanize::Page ,还是通过其他一些 Mechanize 类(class)?

最佳答案

实际上,看起来我已经找到了自己问题的答案:

 page  = Mechanize::Page.new(URI.parse('http://example.com'), {'content-type'=>'text/html'},(page.body), 200, agent)

关于ruby - 使用 Mechanize (Ruby) 解析格式错误的 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11979359/

相关文章:

ios - Appium::TouchAction.new.tap 无法正常工作

ruby - 在 Ruby 中反转字符串

ruby-on-rails - 在 rails 中自定义 f.file.field 的外观

python - 如何在 BeautifulSoup 中使用 find() 和 find_all()?

python - 解析混淆的 javascript 并与之交互

Python 局部变量被另一种方法更改

python-3.x - 如何使用Python 3并行下载和解析HTML文件?

web-scraping - 是否可以使用 Scrapy 从 Whatsapp Web 中抓取所有短信?

python - 无法设置 SelectControl 元素的值

python - 屏幕抓取 : getting around "HTTP Error 403: request disallowed by robots.txt"