python-3.x - 使用代理加载 fetch_lfw_people

标签 python-3.x proxy scikit-learn dataset jupyter-notebook

我想使用这个玩具数据集进行教育。 但是当我尝试使用内置 sklearn 加载器加载它时,我收到了错误。

from sklearn import datasets 
lfw_people = datasets.fetch_lfw_people(min_faces_per_person=50, 
                resize=0.4, data_home='.', )

错误:

urlopen error [WinError 10061]

我知道它与代理有关 - 通常在安装新软件包时我使用 --proxy 选项。 但现在该怎么办呢? datasets.fetch_lfw_people

中没有这样的选项

我想到了从官网手动下载:http://vis-www.cs.umass.edu/lfw/#download 但我不知道该选择哪一个以及如何在 python 中打开。

最佳答案

fetch_lfw_people 默认情况下会检查 '~/scikit_learn_data/lfw_home' 中的数据,以查看数据集是否已下载且正确(通过匹配哈希值)。

根据source code ,它从以下网址下载 4 个文件:

因此您可以下载这些文件并将它们保存在指定的文件夹中。之后,只需调用 fetch_lfw_people 方法,它就会从该位置加载数据,而无需连接互联网。

这里~指的是用户的家庭位置。您可以使用以下代码根据您的系统了解该文件夹的默认位置。

from sklearn.datasets import get_data_home
print(get_data_home())

由于您已将该值更改为 data_home='.',因此您应该使用不带 'scikit_learn_data'~/lfw_home (即直接在主文件夹中创建lfw_home)。

关于python-3.x - 使用代理加载 fetch_lfw_people,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53433512/

相关文章:

python - 类型错误 : KMeans() got an unexpected keyword argument 'n_clusters'

python - 在 Python3.5 Numberjack (OSX) 上安装 SCIP 求解器

python - 如何在selenium python中的jquery日期时间选择器中选择日期

python-3.x - 为什么合并不相等匹配的行不适用于本地数据集?

java - 在代理 testng 内部工作时返回连接超时

proxy - 企业代理背后的 Windows 上的 cargo

python - 如何定义sklearn.cluster.DBSCAN的eps参数的值范围?

python3 os.rename() 不会重命名名称中包含单词 'Copy' 的文件

java - http.nonProxyHosts 的有效正则表达式

python - 如何从多项式拟合中提取导数?