nlp - Spacy 2.0 神经网络训练

标签 nlp training-data named-entity-recognition spacy

在 SpacyV1 中，可以通过提供 BILOU 格式的文档和实体注释列表来训练 NER 模型。

然而，在 V2 中似乎只有通过提供像这样的实体注释 (7, 13, 'LOC') 才能进行训练，因此具有实体偏移量和实体标签。

提供代币列表和另一个BILOU格式的实体标签列表的旧方法是否仍然有效？

从我从文档中收集到的信息来看，nlp.update 方法似乎接受了 GoldParse 对象列表，因此我可以为每个文档创建一个 GoldParse 对象并将 BILOU 标记传递给它的实体属性。但是，我会通过忽略 GoldParse 类的其他属性(例如头部或标签 https://spacy.io/api/goldparse )来丢失重要信息，还是训练 NER 不需要其他属性？

谢谢!

最佳答案

是的，您仍然可以使用 BILUO 标签创建 GoldParse 对象。用法示例显示“更简单”的偏移格式的主要原因是它使它们更容易阅读和理解。

如果您只想训练 NER，您现在也可以使用 nlp.disable_pipes() context manager并在训练期间禁用所有其他管道组件(例如 'tagger' 和 'parser')。 block 之后，组件将恢复，因此当您保存模型时，它将包括整个管道。您可以在 NER training examples 中看到这一点。 .

关于nlp - Spacy 2.0 神经网络训练，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47219639/

上一篇：docker - 无法将 Docker Volume 目录的所有者更改为非 root 用户

下一篇：r - "%in%"命令与 r 中的常规子集

相关文章：

python - 多维度的情绪分析 API，即积极性、情绪性等

php - 词干提取避免将流行单词与不同含义进行匹配

派斯帕克 : how to split data without randomnize

nlp - 共指解析是否需要 NER？

JAVA:如何将 Gazettes 与 Stanford NLP 结合使用？

java - 在运行时更改 CoreNLP 设置

machine-learning - 加载 doc2vec 的预训练 word2vec 模型

azure - 将 EntityRecognitionSkill 限制为confidence > .5

python - 在 RandomForestRegressor 中使用 Partial_fit() 方法

split - 方法 "stratify"中的参数 "train_test_split"(scikit Learn)