我想使用这个玩具数据集进行教育。 但是当我尝试使用内置 sklearn 加载器加载它时,我收到了错误。
from sklearn import datasets
lfw_people = datasets.fetch_lfw_people(min_faces_per_person=50,
resize=0.4, data_home='.', )
错误:
urlopen error [WinError 10061]
我知道它与代理有关 - 通常在安装新软件包时我使用 --proxy 选项。
但现在该怎么办呢? datasets.fetch_lfw_people
我想到了从官网手动下载:http://vis-www.cs.umass.edu/lfw/#download 但我不知道该选择哪一个以及如何在 python 中打开。
最佳答案
fetch_lfw_people
默认情况下会检查 '~/scikit_learn_data/lfw_home'
中的数据,以查看数据集是否已下载且正确(通过匹配哈希值)。
根据source code ,它从以下网址下载 4 个文件:
对于目标
- pairsDevTrain.txt:https://ndownloader.figshare.com/files/5976012
- pairsDevTest.txt:https://ndownloader.figshare.com/files/5976009
- pairs.txt:https://ndownloader.figshare.com/files/5976006
对于数据
lfw-funneled.tgz(默认):https://ndownloader.figshare.com/files/5976015
或者
lfw.tgz(当
funneled=False
时):https://ndownloader.figshare.com/files/5976018
因此您可以下载这些文件并将它们保存在指定的文件夹中。之后,只需调用 fetch_lfw_people
方法,它就会从该位置加载数据,而无需连接互联网。
这里~
指的是用户的家庭位置。您可以使用以下代码根据您的系统了解该文件夹的默认位置。
from sklearn.datasets import get_data_home
print(get_data_home())
由于您已将该值更改为 data_home='.'
,因此您应该使用不带 'scikit_learn_data'
的 ~/lfw_home
(即直接在主文件夹中创建lfw_home
)。
关于python-3.x - 使用代理加载 fetch_lfw_people,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53433512/