python - 使用大数据集进行 scikit-learn 向量化

标签 python numpy machine-learning scikit-learn

我的磁盘上有 9GB 的分段文档,而我的 vps 只有 4GB 内存。

如何在初始化时不加载所有语料库的情况下对所有数据集进行向量化?有示例代码吗?

我的代码如下:

contents = [open('./seg_corpus/' + filename).read()
            for filename in filenames]
vectorizer = CountVectorizer(stop_words=stop_words)
vectorizer.fit(contents)

最佳答案

尝试一下,您可以仅将文件句柄传递到 fit 方法中,而不是将所有文本加载到内存中,但必须在 中指定 input='file' >CountVectorizer 构造函数。

contents = [open('./seg_corpus/' + filename)
        for filename in filenames]
vectorizer = CountVectorizer(stop_words=stop_words, input='file')
vectorizer.fit(contents)

关于python - 使用大数据集进行 scikit-learn 向量化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40054473/

相关文章:

machine-learning - 机器学习 - 亥姆霍兹机器实现

r - 了解动态时间扭曲

python - 更新/刷新 python Tkinter 框架

Python:将列表中的负值设置为 0

python - 优化里德-所罗门编码器(多项式除法)

python - ... 和 : in Pytorch tensors and numpy indexing 之间有什么区别

python - 计算 Kmeans 的成本

python - 改进/参数化包含未知字符的 SQL 查询

python - Eclipse 找不到运行 python 代码的 libnppc.so.7.0 库,其中包含使用 CUDA 库的 Opencv 命令

python - 读取 CSV 文件并附加到 Numpy 数组的新列