python - urllib2 中的未知 url 类型错误

标签 python python-2.7 beautifulsoup urllib2 ubuntu-14.04

我在 SO 上搜索了很多类似的问题,但没有找到与我的情况完全匹配的问题。

我正在尝试使用 python 2.7 下载视频

这是我下载视频的代码

import urllib2
from bs4 import BeautifulSoup as bs


with open('video.txt','r') as f:
    last_downloaded_video = f.read()

webpage = urllib2.urlopen('http://*.net/watch/**-'+last_downloaded_video)

soup = bs(webpage)
a = []
for link in soup.find_all('a'):
    if link.has_attr('data-video-id'):
        a.append(link)

#try just with first data-video-id

id = a[0]['data-video-id']
webpage2 = urllib2.urlopen('http://*/video/play/'+id)
soup = bs(webpage2)
string = str(soup.find_all('script')[2])
print string
url = string.split(': ')[1].split(',')[0]
url = url.replace('"','')
print url
print type(url)

video = urllib2.urlopen(url).read()
filename = "video.mp4"
with open(filename,'wb') as f:
    f.write(video)

这段代码给出了一个未知的 url 类型错误。回溯是

Traceback (most recent call last):
  File "naruto.py", line 26, in <module>
    video = urllib2.urlopen(url).read()
  File "/usr/lib/python2.7/urllib2.py", line 127, in urlopen
    return _opener.open(url, data, timeout)
  File "/usr/lib/python2.7/urllib2.py", line 404, in open
    response = self._open(req, data)
  File "/usr/lib/python2.7/urllib2.py", line 427, in _open
    'unknown_open', req)
  File "/usr/lib/python2.7/urllib2.py", line 382, in _call_chain
    result = func(*args)
  File "/usr/lib/python2.7/urllib2.py", line 1247, in unknown_open
    raise URLError('unknown url type: %s' % type)
urllib2.URLError: <urlopen error unknown url type: 'http>

但是,当我将相同的 url 存储在变量中并尝试从终端下载它时,没有显示任何错误。 我对问题出在哪里感到困惑。 我有一个类似的问题in python mailing list

最佳答案

如果不从您正在抓取的页面中看到 HTML 很难判断,但是,URL 开头的杂散 '(单引号)字符可能是原因 - 这会导致同样的异常(exception):

>>> import urllib2
>>> urllib2.urlopen("'http://blah.com")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "urllib2.py", line 127, in urlopen
    return _opener.open(url, data, timeout)
  File "urllib2.py", line 404, in open
    response = self._open(req, data)
  File "urllib2.py", line 427, in _open
    'unknown_open', req)
  File "urllib2.py", line 382, in _call_chain
    result = func(*args)
  File "urllib2.py", line 1249, in unknown_open
    raise URLError('unknown url type: %s' % type)
urllib2.URLError: <urlopen error unknown url type: 'http>

因此,请尝试清理您的 URL 并删除任何杂散引号。

OP反馈后更新:

打印语句的结果表明该 URL 在 URL 字符串的开头和结尾处有一个单引号 字符。将 URL 传递给 urlopen() 时,不应任何任何类型的引号。您可以使用以下方法从 URL 字符串中删除前导引号和尾随引号(单引号和双引号):

url = url.strip('\'"')

关于python - urllib2 中的未知 url 类型错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26559709/

相关文章:

python - 如何使用Python的beautifulsoup选择特定元素下的表格元素

python - BeautifulSoup 找不到正确解析的元素

Python、Beautiful Soup、WebScraping、Pandas、Dataframe

python - 将列表写入 CSV 文件

python - 如何将元素添加到 OrderedDict 的开头?

python - 错误 : Command '[' dot', '-V' ]' 返回非零退出状态 -5 使用 Iris 时

python - ManyToMany 关系中的 Save()

python - requests.post() 返回的结果?

python - df.duplicated() 误报?

java - 将增长递归翻译为迭代?