nlp - 大数据集的最大熵分类器

标签 nlp machine-learning classification

我一直在寻找最大熵​​分类实现,它可以处理 500 个类和 1000 个特征的输出大小。我的训练数据大约有 30,000,000 行。 我尝试过使用 MegaM、64 位 R maxent 包、爱丁堡大学的 maxent 工具,但正如预期的那样,它们都无法处理数据大小。然而,对于这种性质的 nlp 任务来说,数据集的大小似乎并不算太​​大。 我应该采用什么技术吗?或者对我可以使用的工具包有什么建议吗? 我正在尝试在具有 8GB RAM 的 64 位 Windows 计算机上运行此程序,并在需要时使用 Cygwin。

最佳答案

Vowpal Wabbit目前被认为是最快的大规模学习器。 LibLinear是一种替代方案,但我不确定它是否可以处理 3e10 元素的矩阵。

请注意,术语“MaxEnt”几乎仅由 NLP 人员使用;机器学习人员将其称为逻辑回归或 logit,因此如果您搜索它,您可能会发现比搜索 MaxEnt 更多的工具。

关于nlp - 大数据集的最大熵分类器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10933427/

相关文章:

c# - Encog 框架非数字示例,文本分类

python - scikit-learn 虚拟分类器的理论基础是什么?

machine-learning - 用于大型集合的贝叶斯网络分类器

machine-learning - 新手: where to start given a problem to predict future success or not

python - 将索引缩减为 "interesting"个词以供将来搜索词使用

nlp - 有人类可读的编程语言吗?

python - 在 NLP 中预处理数据时如何处理文本数据中的 URL 链接

nlp - 向 Google Action/API.AI 发送 POST 请求或发送超过 5 秒的响应

python - 使用 Knn 分类器时出现无效形状错误

matlab - matlab中的主成分分析?