java - Rapidminer - 处理大型数据集时内存不足

标签 java out-of-memory rapidminer

在Rapidminer v.5.3013中我想实现以下目标:

  1. 从数据库表中读取 1500 万条记录 - 仅一个属性,但最多 4096 个字符
  2. 该数据集的正则表达式替换
  3. 根据朴素贝叶斯分类
  4. 将结果(也是 1500 万行)写入另一个表

我在 RapidAnalytics 上运行该进程,并配有 8GB 专用 RAM,但它总是因 java.lang.OutOfMemoryError 崩溃。

可能我必须迭代较小的记录子集,并将结果的每个部分附加到目标表。有一个名为“循环数据集”的运算符,但我找不到适当的选项/参数来按照我需要的方式进行迭代。

有人知道如何解决这个问题吗?

最佳答案

您可以尝试使用 Loop Batches 运算符并将 Replace (Dictionary) 放入其中,然后进行追加。

关于java - Rapidminer - 处理大型数据集时内存不足,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26235304/

相关文章:

linux - Radoop 的访问被拒绝问题。将 RapidMiner 与 Cloudera Quickstart VM 连接

elasticsearch - 在RapidMiner中使用 Elasticsearch

Java Netbeans : 'Package does not exist'

java - 增加 Spark on Yarn 中的 Java 堆大小

php - 在嵌套循环中使用数组耗尽内存

android - 使用许多位图时出现内存不足错误

etl - RapidMiner 中是否有从许多不同格式的数据中提取数据的过程?

java - 完全混淆了java.exe

java - jtextpane 突出显示仅突出显示第一个实例

java - Java 不区分大小写的正则表达式值