apache-spark - 如何解决java.lang.OutOfMemoryError : Java heap space when train word2vec model in Spark？

标签 apache-spark word2vec

Solu:我把参数 driver-memory 40G 放在 spark-submit 中。

问题:我的 Spark 集群由 5 个 ubuntu 服务器组成，每个服务器有 80G 内存和 24 个内核。
word2vec 大约是 10G 新闻数据。
我以这样的独立模式提交作业:

spark-submit --name trainNewsdata --class Word2Vec.trainNewsData --master spark://master:7077 --executor-memory 70G --total-executor-cores 96 sogou.jar hdfs://master:9000/user/bd/newsdata/* hdfs://master:9000/user/bd/word2vecModel_newsdata

当我在 spark 中训练 word2vec 模型时，我出现了:
线程“main”中的异常 java.lang.OutOfMemoryError: Java heap space,
我不知道如何解决它，请帮助我:)

最佳答案

我把params driver-memory 40G放在spark-submit中，然后解决。

关于apache-spark - 如何解决java.lang.OutOfMemoryError : Java heap space when train word2vec model in Spark？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34262866/

上一篇：maven - 将源添加到 JitPack Artifact

下一篇：lua - 运行 Torch/Lua 时出错，可能是安装错误

gensim - 如何从 gensim Doc2Vec 获取词向量？

python - Word2vec Gensim 准确度分析

python - 使用 Word2Vec 的文本相似度

word2vec 猜测词嵌入

apache-spark - load() 在 spark 中做了什么？

python - 对于以下模式，PySpark regexp_replace 无法按预期工作

scala - 给定核心和执行程序的数量，如何确定 spark 中 rdd 的分区数量？

python - 计算word2vec模型的困惑度

apache-spark - Spark:整个数据集中在一个执行器中