python - scikit-learn 中安排文本数据进行文本分类的标准方法是什么?

标签 python machine-learning nlp scikit-learn

我有一个NLP 任务,基本上是有监督的文本分类。我用它的 POS 标签标记了一个语料库,然后我使用 scikit-learn 提供的不同矢量化器来提供 scikit-learn 也提供的一些分类算法。我还有之前以无监督方式获得的语料库的标签(类别)。

首先我对语料库进行了词性标注,然后我得到了一些不同的二元语法,它们具有以下结构:

bigram = [[('word','word'),...,('word','word')]]

显然,我似乎拥有所有需要分类的东西(我已经准备好用一些小例子进行分类,但还没有用所有的语料库)。

我想使用二元组作为特征,以便将它们呈现给分类算法(多项式朴素贝叶斯、SVM 等)。

安排所有文本数据进行分类并显示分类语料库结果的标准(pythonic)方法是什么?我正在考虑使用 arff files并使用 numpy 数组,但我想这可能会使任务不必要地复杂化。另一方面,我正在考虑将数据拆分到训练和测试文件夹,但我没有想象如何在训练文件夹中设置标签。

最佳答案

你的问题很含糊。您可以访问有关该主题的书籍和类(class)。 先看看这个博客 1这些类(class)23 .

关于python - scikit-learn 中安排文本数据进行文本分类的标准方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27347555/

相关文章:

python - 使用 BeautifulSoup 获取以 ":"分隔的文本

python - 如何用python构建基于知识图谱的问答程序

java - 如何从 OpenNLP 生成器中提取特征?

machine-learning - 下一个单词预测引擎 - 它们属于人工智能的哪个分支

python - 从文本内容生成标签

python - Python 包中用于 Spark 数据帧的 udf() 的函数

python - BeautifulSoup中的unicode函数从什么编码转换而来?

python - 将灰度图像内容复制到 3 个 channel

r - 标签不会出现在 R 中的层次聚类图(树状图)中

recursion - 通过机器学习以递归方式预测时间范围