dataset - 大型分类文档语料库

标签 dataset classification corpus text-classification

任何人都可以向我指出一些用于分类的大型语料库吗?

但总的来说,我并不是指路透社或 20 个新闻组,我指的是 GB 大小的语料库,而不是 20MB 或类似的东西。

我只能找到这个路透社和 20 个新闻组,这对于我需要的东西来说太小了。

最佳答案

最流行的文本分类评估数据集是:

但是上面的数据集不满足“大”要求。以下数据集可能符合您的标准:

  • Commoncrawl您可以通过提取元标记中具有特定关键字的文章来构建大型语料库并应用于文档分类。

  • Enron Email Dataset您可以在这里执行各种不同的分类任务。

  • Topic Annotated Enron Dataset 。不是免费的,但已经标记并满足您的大型语料库要求

您可以浏览其他公开的datasets here

除了上述内容之外,您可能还需要开发自己的语料库。我将在本周末晚些时候发布一个新闻语料库构建器,它将帮助您根据您选择的主题开发自定义语料库

更新:

已经创建了我上面提到的自定义语料库构建器模块,但忘记链接它 News Corpus Builder

关于dataset - 大型分类文档语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32246702/

相关文章:

c# - 检查数据集是否为空

c# - 如何仅将数据库的模式放入数据集中?

python - 使用机器学习对大文本进行分类

r - 从随机森林模型中提取树的子集进行预测

javascript - TF-IDF语料库是否可以使用色散

python - ATIS(航空旅行信息系统)数据集的结构是什么

c# - 使用 LINQ 检查枚举器值(如果存在)

matlab - 转置训练集是否会影响 SVM 的结果

python - 如何在 NLTK Python 中为语料库创建子类别

python - 使用 NLTK 创建新语料库