nlp - 命名实体识别 (NER) 的 IOB 标记方法在模型准确性或计算时间方面是否有任何优势?

标签 nlp named-entity-recognition

我们可以在没有 IOB 标签而仅使用实体作为标签的情况下进行 NER 吗?我专门致力于收据等视觉文档的标记分类。例如,This HuggingFace tutorial CORD数据集上的LayoutLM用于收据信息提取不使用IOB方案。

我已经训练了没有 IOB 标记的 LayoutLMv2 模型,并且训练得很好。但是使用 IOB 标签会有什么不同吗?

最佳答案

假设您的文本是“...深蓝色浅绿色...”,其中“深蓝色”和“浅绿色”是两种不同的颜色。如果您想确保您的模型理解这种差异,您应该使用 IOB 检查结果是否为 I-Color I-Color B-Color I-Color。如果您只关心模型将这些单词分类为颜色,则不需要 IOB 标记。

由此可以非常清楚地看出,所选标记会影响性能指标。找到正确的标签类对比仅仅找到正确的类更复杂。就计算时间而言,我认为由于还包含 IOB 标签时类总数的增加,因此影响较小。

关于nlp - 命名实体识别 (NER) 的 IOB 标记方法在模型准确性或计算时间方面是否有任何优势?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71705263/

相关文章:

machine-learning - 即使对于用于训练它的文件,libSVM 也会给出非常不准确的预测

python 正则表达式拆分不能为 ('ca' , "n' t")

python - 哪些领域涉及提取具有相似特征的单词?

Python treetaggerwrapper 返回二进制无效错误 :tree-tagger. exe?

python-3.x - Spacy - 标记带引号的字符串

Python PyNER 库不提供任何输出

perl - 从 Perl 文本 block 中提取一个人的全名?

NLTK 标记化但不拆分命名实体

python - 命名实体识别——与字典直接匹配

python - 如何规范化使用命名实体识别提取的关键字