将合并的输出用于句子级别的分析(例如分类)是有道理的。我想知道, token 级别嵌入是否更适合命名实体识别?我会这么想,但我不确定如何为 NER 获取序列输出和操作。我是否只为 [batch_size, num_tokens, 768]
取一片 [:, :, -1]
?
最佳答案
如果我们谈论 bert,我们会得到两个输出
o1, o2 = self.bert(ids, attention_mask=mask)
- o1-顺序输出:每个标记都会收到自己的嵌入(可用于 NER Pooled 输出。)
- o2-池化输出:整个句子接受嵌入。 (可用于分类问题)
在前向传播中,您可以根据您的用例进一步修改 bert 输出。
关于python - 带有 BERT 的 NER 的合并输出与序列输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60386576/