状态页面如下所示:
http://h20000.www2.hp.com/bc/docs/support/SupportDocument/c00002742/c00004781.gif
您看到设备状态标题下方的文本了吗?这就是我想要抓取的内容。
导航至时,状态页面会更新。我已经从页面源中提取了此内容:
<form id="deviceStatusPage" method="post" action="this.LCDispatcher?nav=hp.DeviceStatus">
我似乎无法理解它实际上在做什么,因此很难制定出良好的抓取策略。我相当确定解决方案将是微不足道的,但我似乎根本无法开始。
应该说我一直在玩 Mechanize 和 Beautiful Soup。前者似乎可以实现我想要的,但我不确定如何实现。
最佳答案
使用抓取库。 BeautifulSoup
是一个伟大的。 mechanize
和 BeautifulSoup
一起构成了非常有用的抓取工具。
关于python - 如何使用 Mechanize 抓取 HP 打印机状态页?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9149622/