java - Java中半结构化数据的贝叶斯分类

标签 java filtering bayesian classification

我想针对以下情况训练和使用贝叶斯分类器:

  • 半结构化数据——基本上是一个 XML 模式
  • 信息包含在多个纯文本字段中
  • 模式的某些字段/部分可以重复任意次数

分类本身相当简单 - 基本上我需要文档属于特定类别的概率。

设计限制:

  • 解决方案必须是开源的,或者在其他免版税许可下可用
  • 必须可以保存/加载分类器以备将来使用
  • 必须能够将此库嵌入到更大的基于 Java 的应用程序中(即必须在 Java/JVM 库中运行)

是否有适合此要求的库/工具?

最佳答案

我不确定您是否已经准备好分类器,但我使用了 Apache 的 UIMA几个抽屉项目的框架。 UIMA “只是”一个框架,但确实附带了一些 logic .一些重型谷歌搜索得出了 example bayesian classifier using UIMA .

它有在运行时修改你的配置的机制,但我也有点不清楚你所说的“保存和加载分类器”是什么意思。这是否意味着您有一组要在运行时加载(和卸载)的二元分类器,或者您有不同的模型要加载/卸载?

您其他问题的答案是:

  • 是的,UIMA 是开源的,在 ASLv2 下发布
  • 是的,您可以将 UIMA 作为库嵌入到您的应用程序中。

关于java - Java中半结构化数据的贝叶斯分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12363862/

相关文章:

java - 如何在虚拟机退出后创建临时文件并删除

r - 使用 rjags 包进行贝叶斯多项式回归

machine-learning - 贝叶斯设置中 l2 正则化的参数形式应该是什么?

java - 如何在 Tesseract (Java) 中使用用户词?

java - Android Studio - Java 方法调用 getBytesFromFile() 失败

javascript - 带有列表js插件的多个过滤器

image-processing - 高斯滤波器使用的拉普拉斯算子

javascript - 对象数组的过滤函数

python - 如何在 PyMC3 中定义自定义先验

java - 在递增、递减、递增和递减数组中查找最大值和最小值的算法