python - 如何保存包含某些 block 的整个网页

标签 python

我想保存一个网页。我使用 python urllib 来解析网页。但是我找到保存的文件，其中缺少某些内容。缺失的部分被源网页屏蔽，比如这部分<div style="display: block;" id="GeneInts">...</div> . 我不知道如何解析没有 block 的整个页面。你可以帮帮我吗想办法？谢谢!

这是我的程序

url = 'http://receptome.stanford.edu/hpmr/SearchDB/getGenePage.asp?Param=4502931&ProtId=1&ProtType=Receptor'
f = urllib.urlretrieve(url,'test.html')

最佳答案

每当我需要让 Javascript 在我抓取页面之前对其进行操作时，我总是首先求助于 SeleniumRC -- 虽然它主要是为测试目的而设计的，但我从来没有找到更好的工具来完成这项具有挑战性的任务。对于“从 Python 使用它”部分，请参阅 here及其链接。

关于python - 如何保存包含某些 block 的整个网页，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3454819/

上一篇：python - 使用 Python 比较不同格式的日期和时间

下一篇：python - 在正则表达式中转义字符

相关文章：

python - 如何计算数据帧的增量？

python - 如何在 python 中创建 sha1 哈希

Python pandas 将两个数据集的两列转换为一列，保留列名称和数据类型

Python 电子邮件机器人 Pyzmail/IMAPclient 错误

python - Python 中的循环

python - 如何使用 NumPy C API 创建数组切片？

python - toolz.thread_first() 和 toolz.thread_last() 的目的是什么？

python - 如何更改 Twitter API 上的身份验证类型

Python绘制流程图、插图图

python - 我可以填充 onChange 事件上的字段吗？