我们可以在没有 IOB 标签而仅使用实体作为标签的情况下进行 NER 吗?我专门致力于收据等视觉文档的标记分类。例如,This HuggingFace tutorial CORD数据集上的LayoutLM用于收据信息提取不使用IOB方案。
我已经训练了没有 IOB 标记的 LayoutLMv2 模型,并且训练得很好。但是使用 IOB 标签会有什么不同吗?
最佳答案
假设您的文本是“...深蓝色浅绿色...”,其中“深蓝色”和“浅绿色”是两种不同的颜色。如果您想确保您的模型理解这种差异,您应该使用 IOB 检查结果是否为 I-Color I-Color B-Color I-Color。如果您只关心模型将这些单词分类为颜色,则不需要 IOB 标记。
由此可以非常清楚地看出,所选标记会影响性能指标。找到正确的标签类对比仅仅找到正确的类更复杂。就计算时间而言,我认为由于还包含 IOB 标签时类总数的增加,因此影响较小。
关于nlp - 命名实体识别 (NER) 的 IOB 标记方法在模型准确性或计算时间方面是否有任何优势?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71705263/