java - Rapidminer - 处理大型数据集时内存不足

标签 java out-of-memory rapidminer

在Rapidminer v.5.3013中我想实现以下目标:

从数据库表中读取 1500 万条记录 - 仅一个属性，但最多 4096 个字符
该数据集的正则表达式替换
根据朴素贝叶斯分类
将结果(也是 1500 万行)写入另一个表

我在 RapidAnalytics 上运行该进程，并配有 8GB 专用 RAM，但它总是因 java.lang.OutOfMemoryError 崩溃。

可能我必须迭代较小的记录子集，并将结果的每个部分附加到目标表。有一个名为“循环数据集”的运算符，但我找不到适当的选项/参数来按照我需要的方式进行迭代。

有人知道如何解决这个问题吗？

最佳答案

您可以尝试使用 Loop Batches 运算符并将 Replace (Dictionary) 放入其中，然后进行追加。

关于java - Rapidminer - 处理大型数据集时内存不足，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26235304/

上一篇：Java - 如何停止另一个类的音频剪辑

下一篇：java - 如何分隔 jtextfield 上的多个输入

相关文章：

linux - Radoop 的访问被拒绝问题。将 RapidMiner 与 Cloudera Quickstart VM 连接

elasticsearch - 在RapidMiner中使用 Elasticsearch

Java Netbeans : 'Package does not exist'

java - 增加 Spark on Yarn 中的 Java 堆大小

php - 在嵌套循环中使用数组耗尽内存

android - 使用许多位图时出现内存不足错误

etl - RapidMiner 中是否有从许多不同格式的数据中提取数据的过程？

java - 完全混淆了java.exe

java - jtextpane 突出显示仅突出显示第一个实例

java - Java 不区分大小写的正则表达式值

©2024 IT工具网联系我们