java - 木槌主题建模

标签 java nlp machine-learning mallet

我一直在使用 mallet 为包含 100,000 行的文本文件(大约 34 MB 的 mallet 格式)推断主题。但是现在我需要在一个包含一百万行(大约 180MB)的文件上运行它并且我得到一个 java.lang.outofmemory 异常。有没有办法将文件拆分成更小的文件并为所有文件中存在的数据构建模型? 提前致谢

最佳答案

bin/mallet.bat 中增加这一行的值:

set MALLET_MEMORY=1G

关于java - 木槌主题建模,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5168342/

相关文章:

java - 确定 InetSocketAddress 是 IPv6 还是 IPv4

java8 Collectors.toMap() 限制?

python - 如何根据其中一个子字符串对字符串进行分组?

matlab - MATLAB 中的主成分分析

r - 术语文档矩阵的关联

python - 当我们使用transform得到相同的输出时,为什么我们应该使用fit_transform方法

java - Java 中可撤消的文本区域

java - 在 Collection<A> 中获取 max(A.x) 的最简洁方法

amazon-web-services - 我们可以利用 Amazon AWS 服务来检测两个文本之间的相关性吗?

python - 使用 categorical_crossentropy 时出错