我想保存一个网页。我使用 python urllib 来解析网页。但是我
找到保存的文件,其中缺少某些内容。缺失的部分
被源网页屏蔽,比如这部分<div
style="display: block;" id="GeneInts">...</div>
.
我不知道如何解析没有 block 的整个页面。你可以帮帮我吗
想办法?谢谢!
这是我的程序
url = 'http://receptome.stanford.edu/hpmr/SearchDB/getGenePage.asp?Param=4502931&ProtId=1&ProtType=Receptor'
f = urllib.urlretrieve(url,'test.html')
最佳答案
每当我需要让 Javascript 在我抓取页面之前对其进行操作时,我总是首先求助于 SeleniumRC -- 虽然它主要是为测试目的而设计的,但我从来没有找到更好的工具来完成这项具有挑战性的任务。对于“从 Python 使用它”部分,请参阅 here及其链接。
关于python - 如何保存包含某些 block 的整个网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3454819/