我有一个需要对聊天文本进行分类的用例。我想使用 Apache OpenNLP 中的 DocumentCategorizer 对聊天进行分类。但为此,我必须拥有应已对聊天进行分类的训练数据。我是否必须手动对数百个聊天进行分类才能准备训练和测试数据?我还可以做些什么?我希望聊天类别是与服务相关的问题。该类别列表将是特定于域的。这些数据的提供者是否应该向我提供分类的聊天数据? 谢谢,提前。
最佳答案
根据定义,如果没有标记数据,就不可能出现分类问题。要么有人标记(至少部分)数据,要么您应该尝试以不同的方式解决问题。
-- 编辑以添加一些如何在不分类的情况下解决问题的示例:
一般来说,根据具体任务,您可以尝试通过聚类或/和文档或术语匹配来解决“分类”问题。聚类将与同一主题相关的文档分组在一起,而术语匹配将观察引用特定术语的文档。如果没有可用的训练数据,但您对问题有一定的了解,则任何一种方法或它们之间的组合可能足以满足您的信息需求。
对于您的具体问题,我会开始尝试对聊天进行聚类。
关于classification - 在没有训练数据的情况下如何对聊天文本进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16518998/