python - 如何使用 Mechanize 抓取 HP 打印机状态页?

标签 python screen-scraping mechanize

状态页面如下所示:

http://h20000.www2.hp.com/bc/docs/support/SupportDocument/c00002742/c00004781.gif

您看到设备状态标题下方的文本了吗?这就是我想要抓取的内容。

导航至时,状态页面会更新。我已经从页面源中提取了此内容:

<form id="deviceStatusPage"   method="post" action="this.LCDispatcher?nav=hp.DeviceStatus">

我似乎无法理解它实际上在做什么,因此很难制定出良好的抓取策略。我相当确定解决方案将是微不足道的,但我似乎根本无法开始。

应该说我一直在玩 Mechanize 和 Beautiful Soup。前者似乎可以实现我想要的,但我不确定如何实现。

最佳答案

使用抓取库。 BeautifulSoup是一个伟大的。 mechanizeBeautifulSoup 一起构成了非常有用的抓取工具。

关于python - 如何使用 Mechanize 抓取 HP 打印机状态页?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9149622/

相关文章:

python - python 中的客户端服务器编程?

python - Selenium 点击的视觉反馈

javascript - 如何在Python中使用mechanize进行点击?

ruby-on-rails - 通过 Mechanize 抓取和提交表单。我如何查看传递的参数?

ruby - 单击作为图像的表单内的按钮

python - 检查 Windows 应用程序的 "liveness"?

python - 我可以对 python 中的列表执行减号或连接操作,包括重复条目

python - HTTLlib2 是否支持 NTLM 身份验证。如果没有具体解释?

php - PHP 中图像链接的屏幕抓取

javascript - 屏幕抓取分页数据