ruby - 使用 Mechanize (Ruby) 解析格式错误的 HTML

标签 ruby web-scraping mechanize

我想处理一个包含大量 HTML 但本身不是有效 HTML 文件的 HTTP 响应。

我知道我可以按如下方式使用 Nokogiri:page = Nokogiri::HTML.parse(page.body) ，但是，我想访问 Mechanize方法如 Mechanize::Page.search .有什么方法可以将此 HTML 用作 Mechanize::Page ，还是通过其他一些 Mechanize 类(class)？

最佳答案

实际上，看起来我已经找到了自己问题的答案:

 page  = Mechanize::Page.new(URI.parse('http://example.com'), {'content-type'=>'text/html'},(page.body), 200, agent)

关于ruby - 使用 Mechanize (Ruby) 解析格式错误的 HTML，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11979359/

上一篇：ruby-on-rails - 使用 Mechanize/Nokogiri 提取文本

下一篇：Python:从特定的 href 打印数据(带 ID 标签)

ruby - 在 Ruby 中反转字符串

ruby-on-rails - 在 rails 中自定义 f.file.field 的外观

python - 如何在 BeautifulSoup 中使用 find() 和 find_all()？

python - 解析混淆的 javascript 并与之交互

Python 局部变量被另一种方法更改

python-3.x - 如何使用Python 3并行下载和解析HTML文件？

web-scraping - 是否可以使用 Scrapy 从 Whatsapp Web 中抓取所有短信？

python - 无法设置 SelectControl 元素的值

python - 屏幕抓取 : getting around "HTTP Error 403: request disallowed by robots.txt"