在 SpacyV1 中,可以通过提供 BILOU 格式的文档和实体注释列表来训练 NER 模型。
然而,在 V2 中似乎只有通过提供像这样的实体注释 (7, 13, 'LOC') 才能进行训练,因此具有实体偏移量和实体标签。
提供代币列表和另一个BILOU格式的实体标签列表的旧方法是否仍然有效?
从我从文档中收集到的信息来看,nlp.update 方法似乎接受了 GoldParse 对象列表,因此我可以为每个文档创建一个 GoldParse 对象并将 BILOU 标记传递给它的实体属性。但是,我会通过忽略 GoldParse 类的其他属性(例如头部或标签 https://spacy.io/api/goldparse )来丢失重要信息,还是训练 NER 不需要其他属性?
谢谢!
最佳答案
是的,您仍然可以使用 BILUO 标签创建 GoldParse
对象。用法示例显示“更简单”的偏移格式的主要原因是它使它们更容易阅读和理解。
如果您只想训练 NER,您现在也可以使用 nlp.disable_pipes()
context manager并在训练期间禁用所有其他管道组件(例如 'tagger'
和 'parser'
)。 block 之后,组件将恢复,因此当您保存模型时,它将包括整个管道。您可以在 NER training examples 中看到这一点。 .
关于nlp - Spacy 2.0 神经网络训练,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47219639/