nlp - Spacy 2.0 神经网络训练

标签 nlp training-data named-entity-recognition spacy

在 SpacyV1 中,可以通过提供 BILOU 格式的文档和实体注释列表来训练 NER 模型。

然而,在 V2 中似乎只有通过提供像这样的实体注释 (7, 13, 'LOC') 才能进行训练,因此具有实体偏移量和实体标签。

提供代币列表和另一个BILOU格式的实体标签列表的旧方法是否仍然有效?

从我从文档中收集到的信息来看,nlp.update 方法似乎接受了 GoldParse 对象列表,因此我可以为每个文档创建一个 GoldParse 对象并将 BILOU 标记传递给它的实体属性。但是,我会通过忽略 GoldParse 类的其他属性(例如头部或标签 https://spacy.io/api/goldparse )来丢失重要信息,还是训练 NER 不需要其他属性?

谢谢!

最佳答案

是的,您仍然可以使用 BILUO 标签创建 GoldParse 对象。用法示例显示“更简单”的偏移格式的主要原因是它使它们更容易阅读和理解。

如果您只想训练 NER,您现在也可以使用 nlp.disable_pipes() context manager并在训练期间禁用所有其他管道组件(例如 'tagger''parser')。 block 之后,组件将恢复,因此当您保存模型时,它将包括整个管道。您可以在 NER training examples 中看到这一点。 .

关于nlp - Spacy 2.0 神经网络训练,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47219639/

相关文章:

python - 多维度的情绪分析 API,即积极性、情绪性等

php - 词干提取避免将流行单词与不同含义进行匹配

派斯帕克 : how to split data without randomnize

nlp - 共指解析是否需要 NER?

JAVA:如何将 Gazettes 与 Stanford NLP 结合使用?

java - 在运行时更改 CoreNLP 设置

machine-learning - 加载 doc2vec 的预训练 word2vec 模型

azure - 将 EntityRecognitionSkill 限制为confidence > .5

python - 在 RandomForestRegressor 中使用 Partial_fit() 方法

split - 方法 "stratify"中的参数 "train_test_split"(scikit Learn)