nlp - 大数据集的最大熵分类器

标签 nlp machine-learning classification

我一直在寻找最大熵分类实现，它可以处理 500 个类和 1000 个特征的输出大小。我的训练数据大约有 30,000,000 行。我尝试过使用 MegaM、64 位 R maxent 包、爱丁堡大学的 maxent 工具，但正如预期的那样，它们都无法处理数据大小。然而，对于这种性质的 nlp 任务来说，数据集的大小似乎并不算太大。我应该采用什么技术吗？或者对我可以使用的工具包有什么建议吗？我正在尝试在具有 8GB RAM 的 64 位 Windows 计算机上运行此程序，并在需要时使用 Cygwin。

最佳答案

Vowpal Wabbit目前被认为是最快的大规模学习器。 LibLinear是一种替代方案，但我不确定它是否可以处理 3e10 元素的矩阵。

请注意，术语“MaxEnt”几乎仅由 NLP 人员使用；机器学习人员将其称为逻辑回归或 logit，因此如果您搜索它，您可能会发现比搜索 MaxEnt 更多的工具。

关于nlp - 大数据集的最大熵分类器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10933427/

上一篇：machine-learning - 机器学习实践 : Writing algorithms yourself or using Weka?

下一篇：artificial-intelligence - 关于一些数据挖掘算法的问题

相关文章：

c# - Encog 框架非数字示例，文本分类

python - scikit-learn 虚拟分类器的理论基础是什么？

machine-learning - 用于大型集合的贝叶斯网络分类器

machine-learning - 新手: where to start given a problem to predict future success or not

python - 将索引缩减为 "interesting"个词以供将来搜索词使用

nlp - 有人类可读的编程语言吗？

python - 在 NLP 中预处理数据时如何处理文本数据中的 URL 链接

nlp - 向 Google Action/API.AI 发送 POST 请求或发送超过 5 秒的响应

python - 使用 Knn 分类器时出现无效形状错误

matlab - matlab中的主成分分析？