python - 如何使用 python 获取 html?

标签 python url https

<分区>

我想获取特定网站上的 html 文档。

此代码运行良好。

import urllib2

link = "https://www.google.com"
print link
f = urllib2.urlopen(link)
myfile = f.read()
print myfile

但是这段代码不起作用。

import urllib2

link = "https://www.virustotal.com/en/file/7cf757e0943b0a6598795156c156cb90feb7d87d4a22c01044499c4e1619ac57/analysis/"
print link
f = urllib2.urlopen(link)
myfile = f.read()
print myfile

为什么不在特定网站上工作?

最佳答案

这很奇怪,我不知道为什么 urllib2 不工作。

尽管我尝试使用 selenium 编写此代码并且它对我有用。

from selenium import webdriver
url = 'https://www.virustotal.com/en/file/7cf757e0943b0a6598795156c156cb90feb7d87d4a22c01044499c4e1619ac57/analysis/'
mydriver = webdriver.PhantomJS()
mydriver.get(url)
page = mydriver.page_source
print page.encode('utf-8')

如果你不知道phantomjs,它只是一个 headless 浏览器。 你可以用 FireFox 改变 phantomjs,它仍然有效

关于python - 如何使用 python 获取 html?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31377979/

相关文章:

javascript - 如何修复 Node.js HTTPS 服务器 "SSL Error"?

使用 urllib.quote 对字符进行 Python 编码

python - 如何匹配数据框中相反的值?

python - 如何在 Flask 中创建带有 = 和问号的动态 URL

php - PHP中如何获取当前页面的url

Iphone 将 url 标记为不安全

python - 约束 python 容器内的类型和属性

python - 从 shell 和 python 中的行中删除字符串

php - 检查 URL 中是否存在参数

java - 如何为我的 REST 应用程序配置 https?