我想针对以下情况训练和使用贝叶斯分类器:
- 半结构化数据——基本上是一个 XML 模式
- 信息包含在多个纯文本字段中
- 模式的某些字段/部分可以重复任意次数
分类本身相当简单 - 基本上我需要文档属于特定类别的概率。
设计限制:
- 解决方案必须是开源的,或者在其他免版税许可下可用
- 必须可以保存/加载分类器以备将来使用
- 必须能够将此库嵌入到更大的基于 Java 的应用程序中(即必须在 Java/JVM 库中运行)
是否有适合此要求的库/工具?
最佳答案
我不确定您是否已经准备好分类器,但我使用了 Apache 的 UIMA几个抽屉项目的框架。 UIMA “只是”一个框架,但确实附带了一些 logic .一些重型谷歌搜索得出了 example bayesian classifier using UIMA .
它有在运行时修改你的配置的机制,但我也有点不清楚你所说的“保存和加载分类器”是什么意思。这是否意味着您有一组要在运行时加载(和卸载)的二元分类器,或者您有不同的模型要加载/卸载?
您其他问题的答案是:
- 是的,UIMA 是开源的,在 ASLv2 下发布
- 是的,您可以将 UIMA 作为库嵌入到您的应用程序中。
关于java - Java中半结构化数据的贝叶斯分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12363862/