python - scikit-learn 中安排文本数据进行文本分类的标准方法是什么？

我有一个NLP 任务，基本上是有监督的文本分类。我用它的 POS 标签标记了一个语料库，然后我使用 scikit-learn 提供的不同矢量化器来提供 scikit-learn 也提供的一些分类算法。我还有之前以无监督方式获得的语料库的标签(类别)。

首先我对语料库进行了词性标注，然后我得到了一些不同的二元语法，它们具有以下结构:

bigram = [[('word','word'),...,('word','word')]]

显然，我似乎拥有所有需要分类的东西(我已经准备好用一些小例子进行分类，但还没有用所有的语料库)。

我想使用二元组作为特征，以便将它们呈现给分类算法(多项式朴素贝叶斯、SVM 等)。

安排所有文本数据进行分类并显示分类语料库结果的标准(pythonic)方法是什么？我正在考虑使用 arff files并使用 numpy 数组，但我想这可能会使任务不必要地复杂化。另一方面，我正在考虑将数据拆分到训练和测试文件夹，但我没有想象如何在训练文件夹中设置标签。

最佳答案

你的问题很含糊。您可以访问有关该主题的书籍和类(class)。先看看这个博客 1这些类(class)2和 3 .

关于python - scikit-learn 中安排文本数据进行文本分类的标准方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27347555/

相关文章：

python - 使用 BeautifulSoup 获取以 ":"分隔的文本