classification - 在没有训练数据的情况下如何对聊天文本进行分类?

标签 classification opennlp categorization

我有一个需要对聊天文本进行分类的用例。我想使用 Apache OpenNLP 中的 DocumentCategorizer 对聊天进行分类。但为此,我必须拥有应已对聊天进行分类的训练数据。我是否必须手动对数百个聊天进行分类才能准备训练和测试数据?我还可以做些什么?我希望聊天类别是与服务相关的问题。该类别列表将是特定于域的。这些数据的提供者是否应该向我提供分类的聊天数据? 谢谢,提前。

最佳答案

根据定义,如果没有标记数据,就不可能出现分类问题。要么有人标记(至少部分)数据,要么您应该尝试以不同的方式解决问题。

-- 编辑以添加一些如何在不分类的情况下解决问题的示例:

一般来说,根据具体任务,您可以尝试通过聚类或/和文档或术语匹配来解决“分类”问题。聚类将与同一主题相关的文档分组在一起,而术语匹配将观察引用特定术语的文档。如果没有可用的训练数据,但您对问题有一定的了解,则任何一种方法或它们之间的组合可能足以满足您的信息需求。

对于您的具体问题,我会开始尝试对聊天进行聚类。

关于classification - 在没有训练数据的情况下如何对聊天文本进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16518998/

相关文章:

javascript - 如何对类别中的数值输入进行分类?

scikit-learn - 多标签问题中的 RandomForestClassifier - 它是如何工作的?

java - 使用 Open nlp 对忽略主题标签的单词进行标记

java - OpenNLP Tokenizer 中的圆括号

python - 推特/通用分类训练语料库

php - 图像分类 - 检测平面图

python - 使用分类输入数据和图像输入数据进行分类

java - 如何保存 Java 中的 Open NLP 解析器输出,以便在 Python 中使用它?

r - 在 R 中使用 pheatmap 自动分类和添加注释

machine-learning - 使用哪个斯坦福 NLP 包进行内容分类