nlp - 创建用于职称命名实体识别的训练数据集

标签 nlp named-entity-recognition

我想从文本中识别职位名称。如何通过扩展小训练数据集来创建更大的训练数据集? 是否存在一些用于扩展训练集的现成包或开放项目?

最佳答案

有一套开放的约 44,000 个职位名称及其相应的标准职位代码,作为 O*Net(美国劳工部职业数据计划)的一部分发布。您可以在此处下载该文件:

https://www.onetcenter.org/database.html#occ

关于nlp - 创建用于职称命名实体识别的训练数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26233851/

相关文章:

python - 如何从另一种语言单词创建英文字母字符串?

java - 使用 .prop 文件以编程方式训练 NER 模型

spaCy nlp - 实体在字符串中的位置,提取附近的词

perl - 从 Perl 文本 block 中提取一个人的全名?

python - Spacy 中的新命名实体类

python - 语料库中每个文本的平均句子长度(python3 和 nltk)

java - 斯坦福解析 bash 脚本错误 - linux bash

bash - 如何用空格分隔 "sentence"中的单词?

python - 分词高棉语的可行解决方案?