在Rapidminer v.5.3013中我想实现以下目标:
- 从数据库表中读取 1500 万条记录 - 仅一个属性,但最多 4096 个字符
- 该数据集的正则表达式替换
- 根据朴素贝叶斯分类
- 将结果(也是 1500 万行)写入另一个表
我在 RapidAnalytics 上运行该进程,并配有 8GB 专用 RAM,但它总是因 java.lang.OutOfMemoryError
崩溃。
可能我必须迭代较小的记录子集,并将结果的每个部分附加到目标表。有一个名为“循环数据集”的运算符,但我找不到适当的选项/参数来按照我需要的方式进行迭代。
有人知道如何解决这个问题吗?
最佳答案
您可以尝试使用 Loop Batches 运算符并将 Replace (Dictionary) 放入其中,然后进行追加。
关于java - Rapidminer - 处理大型数据集时内存不足,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26235304/