apache-spark - 如何解决java.lang.OutOfMemoryError : Java heap space when train word2vec model in Spark?

标签 apache-spark word2vec

Solu:我把参数 driver-memory 40G 放在 spark-submit 中。

问题:我的 Spark 集群由 5 个 ubuntu 服务器组成,每个服务器有 80G 内存和 24 个内核。
word2vec 大约是 10G 新闻数据。
我以这样的独立模式提交作业:

spark-submit --name trainNewsdata --class Word2Vec.trainNewsData --master spark://master:7077 --executor-memory 70G --total-executor-cores 96 sogou.jar hdfs://master:9000/user/bd/newsdata/* hdfs://master:9000/user/bd/word2vecModel_newsdata

当我在 spark 中训练 word2vec 模型时,我出现了:
线程“main”中的异常 java.lang.OutOfMemoryError: Java heap space,
我不知道如何解决它,请帮助我:)

最佳答案

我把params driver-memory 40G放在spark-submit中,然后解决。

关于apache-spark - 如何解决java.lang.OutOfMemoryError : Java heap space when train word2vec model in Spark?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34262866/

相关文章:

python - Apache Spark 查询仅针对 "dd/mm/yyyy"格式的 YEAR

gensim - 如何从 gensim Doc2Vec 获取词向量?

python - Word2vec Gensim 准确度分析

python - 使用 Word2Vec 的文本相似度

word2vec 猜测词嵌入

apache-spark - load() 在 spark 中做了什么?

python - 对于以下模式,PySpark regexp_replace 无法按预期工作

scala - 给定核心和执行程序的数量,如何确定 spark 中 rdd 的分区数量?

python - 计算word2vec模型的困惑度

apache-spark - Spark:整个数据集中在一个执行器中