python - MemoryError:在python中使用word2vec时无法分配形状和数据类型为float32的数组

标签 python multiprocessing python-multiprocessing gensim word2vec

我正在尝试从维基百科文本数据中训练word2vec模型,因为我正在使用以下代码。

import logging
import os.path
import sys
import multiprocessing

from gensim.corpora import  WikiCorpus
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence


if __name__ == '__main__':
    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)

    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s')
    logging.root.setLevel(level=logging.INFO)
    logger.info("running %s" % ' '.join(sys.argv))

    # check and process input arguments

    if len(sys.argv) < 3:
        print (globals()['__doc__'])
        sys.exit(1)
    inp, outp = sys.argv[1:3]

    model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())

    # trim unneeded model memory = use (much) less RAM
    model.init_sims(replace=True)

    model.save(outp)


但是程序运行20分钟后,出现以下错误

Error message

最佳答案

理想情况下,您应该将错误文本粘贴到问题中,而不是截图。但是,我看到两条关键线:

<TIMESTAMP> : INFO : estimated required memory for 2372206 words and 400 dimensions: 8777162200 bytes
...
MemoryError: unable to allocate array with shape (2372206, 400) and data type float32


经过语料库之后,该模型学会了可以保留多少个唯一的单词,这些单词报告必须分配一个模型的大小:一个单词大约占用8777162200 bytes(约8.8GB)。但是,当尝试分配所需的向量数组时,会得到一个MemoryError,它表示没有足够的计算机可寻址内存(RAM)可用。

您可以:


在可能有更多内存的地方运行,也许是通过向现有系统中添加RAM来实现;要么
减少所需的内存量,主要是通过减少您想要训练的唯一字向量的数量或尺寸大小。


您可以通过将默认的min_count=5参数增大为min_count=10min_count=20min_count=50来减少单词数。 (您可能不需要超过200万个单词向量-仅用几万个单词的词汇量就可以实现许多有趣的结果。)

您还可以设置一个max_final_vocab值,以指定要保留的唯一单词的确切数目。例如,max_final_vocab=500000仅保留500000个最常用的单词,而忽略其余的单词。

减小size也将节省内存。对于字向量,size=300设置很受欢迎,它将使内存需求减少四分之一。

一起使用size=300, max_final_vocab=500000应该会将所需的内存减少到2GB以下。

关于python - MemoryError:在python中使用word2vec时无法分配形状和数据类型为float32的数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59050644/

相关文章:

python - 如何在 TensorFlow while_loop 中赋值

python - Zeromq (pyzmq) ROUTER处理多个客户端的数据以及后续的超时处理

python - 使用 Python 3.6.1 在 Linux/Intel Xeon 上使用 "fork"上下文 block 进行多处理?

python - 使用 itertools 的部分多处理 pool.map 的 2 个以上参数

python - Python 中的多处理 : how to implement a loop over "apply_async" as "map_async" using a callback function

python - 无法在 kivy 中使用 AsyncImage 加载图像

python - 在 struct.pack 中使用 *args

python - graphlab create sframe 如何获取 SArray 中位数

python - 多处理的queue.get()什么时候返回DONE?

Python 3 - 使用不同参数多处理同一函数