classification - 在没有训练数据的情况下如何对聊天文本进行分类？

标签 classification opennlp categorization

我有一个需要对聊天文本进行分类的用例。我想使用 Apache OpenNLP 中的 DocumentCategorizer 对聊天进行分类。但为此，我必须拥有应已对聊天进行分类的训练数据。我是否必须手动对数百个聊天进行分类才能准备训练和测试数据？我还可以做些什么？我希望聊天类别是与服务相关的问题。该类别列表将是特定于域的。这些数据的提供者是否应该向我提供分类的聊天数据？谢谢，提前。

最佳答案

根据定义，如果没有标记数据，就不可能出现分类问题。要么有人标记(至少部分)数据，要么您应该尝试以不同的方式解决问题。

-- 编辑以添加一些如何在不分类的情况下解决问题的示例:

一般来说，根据具体任务，您可以尝试通过聚类或/和文档或术语匹配来解决“分类”问题。聚类将与同一主题相关的文档分组在一起，而术语匹配将观察引用特定术语的文档。如果没有可用的训练数据，但您对问题有一定的了解，则任何一种方法或它们之间的组合可能足以满足您的信息需求。

对于您的具体问题，我会开始尝试对聊天进行聚类。

关于classification - 在没有训练数据的情况下如何对聊天文本进行分类？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16518998/