python - 空间和训练数据中的 Cased VS uncased BERT 模型

标签 python spacy bert-language-model

我想用spacy用于文本分类的预训练 BERT 模型,但我对 cased/uncased 有点困惑楷模。我在某处读到 cased仅当字母大小写可能对任务有帮助时才应使用模型。在我的具体情况下:我正在处理德语文本。在德语中,所有名词都以大写字母开头。所以,我认为,(如果我错了,请纠正我)这就是 cased 的确切情况。必须使用模型。 (在 uncased 中也没有适用于德语的 spacy 模型)。

但是在这种情况下必须对数据做什么?
我应该(在预处理列车数据时)保持原样(我的意思是不使用 .lower() 函数)还是没有任何区别?

最佳答案

作为不会说德语的人,您对名词大写的评论确实使大小写与德语的相关性似乎比与英语更相关,但这显然并不意味着案例模型会在所有任务上提供更好的性能.

对于诸如词性检测之类的事情,由于您描述的原因,case 可能会非常有帮助,但对于情感分析之类的事情,尚不清楚拥有更大词汇量所增加的复杂性是否值得带来好处。 (作为人类,您可能会想象用所有小写文本轻松进行情感分析。)

鉴于唯一可用的模型是带 shell 版本,我会选择它 - 我相信它仍然是您可以使用的最好的预训练德国模型之一。大小写模型具有不同大小写单词的单独词汇条目(例如,在英语中 theThe 将是不同的标记)。所以是的,在预处理过程中,您不希望通过调用 .lower() 来删除该信息。 ,只需保持 shell 不变。

关于python - 空间和训练数据中的 Cased VS uncased BERT 模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61902426/

相关文章:

python - 如何将 Spacy en_core_web_md 模型放入 Python 包中

nlp - Huggingface 的 ReformerForMaskedLM 配置问题

nlp - 如何理解 Bert 模型中返回的隐藏状态?(拥抱脸转换器)

SpaCy 相似度得分没有意义

python - 在 CPU 而不是 GPU 上运行 BERT

python - for 循环中的复合条件

python - 在 python 中高效写入 Compact Flash

python2 与 python3 raise 语句

javascript - ajax 将参数传递给 python 脚本

python - 如何将自定义规则添加到 spaCy 标记器以将 HTML 分解为单个标记?