python - 在 spacy v3 中训练 NER 需要在命令行中使用 dev.spacy

标签 python spacy-3

我正在尝试在 spacy v3 中准备一个自定义 ner 模型。 从训练角度来看,V3 与 v2 相比发生了显着变化。

我正在使用 en_web_lg 的默认配置。 我已经使用 Convert 命令准备了训练数据(training.spacy)。 但是,训练命令需要 dev.spacy 文件。

不确定 dev.spacy 中需要哪些数据。 这是要求训练.spacy 文件的纯文本语料库吗? 但是有没有办法将纯文本文件转换为 spacy 格式..

来自 spacy 站点的命令- python -m spacy train config.cfg --output ./output --paths.train ./train.spacy --paths.dev ./dev.spacy

有人可以帮忙解释一下如何准备 dev.spacy。

最佳答案

train.spacy 是“训练”文件集合的占位符 - 通常使用 Spacy 转换实用程序的文件目录。 dev.spacy 是“验证”文件集合的占位符 - 与训练文件格式相同,但在训练期间用作验证样本(NER 用于在每次训练迭代后计算预测、召回和 f 分数)。 通常建议的验证样本“大小”为训练样本的 10% 到 20%。 我倾向于使用 20%,因为我的数据变化很大 - 但较大的验证样本会增加训练开销。

关于python - 在 spacy v3 中训练 NER 需要在命令行中使用 dev.spacy,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66997147/

相关文章:

python - 使用 SpaCy DisplaCy 可视化自定义 IOB 标签

nlp - Spacy 手动下载 en_core_web_lg

python-3.x - 如何在 spaCy 3.x 中的自定义实体标尺中删除/添加实体

python - spacy中模型最佳和模型最后之间的差异

named-entity-recognition - 值错误 : [E143] Labels for component 'tagger' not initialized

python - 更改多级字典值的更多 pythonic 方法

Python列表比较numpy优化

python - BeautifulSoup 4 解析属性错误

python - 如何从命令行创建 web2py 应用程序?

python - 哪个生产服务器用于 Cloud Run 中的 Python 应用程序?