我想用spacy
用于文本分类的预训练 BERT 模型,但我对 cased/uncased
有点困惑楷模。我在某处读到 cased
仅当字母大小写可能对任务有帮助时才应使用模型。在我的具体情况下:我正在处理德语文本。在德语中,所有名词都以大写字母开头。所以,我认为,(如果我错了,请纠正我)这就是 cased
的确切情况。必须使用模型。 (在 uncased
中也没有适用于德语的 spacy
模型)。
但是在这种情况下必须对数据做什么?
我应该(在预处理列车数据时)保持原样(我的意思是不使用 .lower()
函数)还是没有任何区别?
最佳答案
作为不会说德语的人,您对名词大写的评论确实使大小写与德语的相关性似乎比与英语更相关,但这显然并不意味着案例模型会在所有任务上提供更好的性能.
对于诸如词性检测之类的事情,由于您描述的原因,case 可能会非常有帮助,但对于情感分析之类的事情,尚不清楚拥有更大词汇量所增加的复杂性是否值得带来好处。 (作为人类,您可能会想象用所有小写文本轻松进行情感分析。)
鉴于唯一可用的模型是带 shell 版本,我会选择它 - 我相信它仍然是您可以使用的最好的预训练德国模型之一。大小写模型具有不同大小写单词的单独词汇条目(例如,在英语中 the
和 The
将是不同的标记)。所以是的,在预处理过程中,您不希望通过调用 .lower()
来删除该信息。 ,只需保持 shell 不变。
关于python - 空间和训练数据中的 Cased VS uncased BERT 模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61902426/