我有一个NLP 任务,基本上是有监督的文本分类。我用它的 POS 标签标记了一个语料库,然后我使用 scikit-learn 提供的不同矢量化器来提供 scikit-learn 也提供的一些分类算法。我还有之前以无监督方式获得的语料库的标签(类别)。
首先我对语料库进行了词性标注,然后我得到了一些不同的二元语法,它们具有以下结构:
bigram = [[('word','word'),...,('word','word')]]
显然,我似乎拥有所有需要分类的东西(我已经准备好用一些小例子进行分类,但还没有用所有的语料库)。
我想使用二元组作为特征,以便将它们呈现给分类算法(多项式朴素贝叶斯、SVM 等)。
安排所有文本数据进行分类并显示分类语料库结果的标准(pythonic)方法是什么?我正在考虑使用 arff files并使用 numpy 数组,但我想这可能会使任务不必要地复杂化。另一方面,我正在考虑将数据拆分到训练和测试文件夹,但我没有想象如何在训练文件夹中设置标签。
最佳答案
关于python - scikit-learn 中安排文本数据进行文本分类的标准方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27347555/