python - 尝试下载 gzip 文件时出现 urlopen 问题

标签 python gzip urllib urlopen

我将使用维基词典转储来进行 POS 标记。不知何故,它在下载时卡住了。这是我的代码:

import nltk
from urllib import urlopen
from collections import Counter
import gzip

url = 'http://dumps.wikimedia.org/enwiktionary/latest/enwiktionary-latest-all-titles-in-ns0.gz'
fStream = gzip.open(urlopen(url).read(), 'rb')
dictFile = fStream.read()
fStream.close()

text = nltk.Text(word.lower() for word in dictFile())
tokens = nltk.word_tokenize(text)

这是我得到的错误:

Traceback (most recent call last):
File "~/dir1/dir1/wikt.py", line 15, in <module>
fStream = gzip.open(urlopen(url).read(), 'rb')
File "/usr/lib/python2.7/gzip.py", line 34, in open
return GzipFile(filename, mode, compresslevel)
File "/usr/lib/python2.7/gzip.py", line 89, in __init__
fileobj = self.myfileobj = __builtin__.open(filename, mode or 'rb')
TypeError: file() argument 1 must be encoded string without NULL bytes, not str
Process finished with exit code 1

最佳答案

您正在将下载的数据传递给gzip.open(),它期望传递的是文件名。

代码然后尝试打开一个以 gzip 数据命名的文件名,但失败了。

要么将 URL 数据保存到一个文件,然后在 that 上使用 gzip.open(),要么使用 zlib 解压缩 gzip 数据> 模块代替。 “保存”数据就像使用 StringIO.StringIO() 内存文件对象一样简单:

from StringIO import StringIO
from urllib import urlopen
import gzip


url = 'http://dumps.wikimedia.org/enwiktionary/latest/enwiktionary-latest-all-titles-in-ns0.gz'
inmemory = StringIO(urlopen(url).read())
fStream = gzip.GzipFile(fileobj=inmemory, mode='rb')

关于python - 尝试下载 gzip 文件时出现 urlopen 问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18146389/

相关文章:

python - 使用 Python 对 GAE 查询字符串进行 URL 编码

python - urllib:从直接下载链接获取文件名

ubuntu - 如何在 ubuntu 中提取 .tar 文件?

python - python中的数字格式

python - 如何发现 Pandas 数据帧索引之间的差距?

python - 如何 reshape 元组数组

visual-studio - Visual Studio 2008/2010 中 Cassini 中的 Gzip 压缩

ruby-on-rails - 在本地机器上进行精简 GZIP 解码

python - 请求库无法正确发布,但 urllib 成功 [python]

python - 将属性分配给变量时忽略 Setter (Python 3.4)