我一直在寻找最大熵分类实现,它可以处理 500 个类和 1000 个特征的输出大小。我的训练数据大约有 30,000,000 行。 我尝试过使用 MegaM、64 位 R maxent 包、爱丁堡大学的 maxent 工具,但正如预期的那样,它们都无法处理数据大小。然而,对于这种性质的 nlp 任务来说,数据集的大小似乎并不算太大。 我应该采用什么技术吗?或者对我可以使用的工具包有什么建议吗? 我正在尝试在具有 8GB RAM 的 64 位 Windows 计算机上运行此程序,并在需要时使用 Cygwin。
最佳答案
Vowpal Wabbit目前被认为是最快的大规模学习器。 LibLinear是一种替代方案,但我不确定它是否可以处理 3e10 元素的矩阵。
请注意,术语“MaxEnt”几乎仅由 NLP 人员使用;机器学习人员将其称为逻辑回归或 logit,因此如果您搜索它,您可能会发现比搜索 MaxEnt 更多的工具。
关于nlp - 大数据集的最大熵分类器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10933427/