nlp - 使用经过训练的 BERT 模型和数据预处理

当使用来自 pytorch 的预训练 BERT 嵌入(然后进行微调)时，是否应该像在任何标准 NLP 任务中一样对输入模型的文本数据进行预处理？
例如，是否应该进行词干提取、去除低频词、去首字母化处理，还是应该将原始文本简单地传递给“transformers.BertTokenizer”？

最佳答案

我认为预处理不会改变你的输出预测。我将尝试为您提到的每个案例进行解释-

词干提取或词形还原 :
Bert 使用 BPE( 字节对编码 来缩小其词汇大小)，所以像 run 和 running 这样的词最终会被解码为 运行 + ##ing。
因此最好不要将运行转换为运行，因为在某些 NLP 问题中，您需要该信息。

去资本化 - Bert 提供两种模型(小写和大写)。一个将您的句子转换为小写，其他则不会随着您句子的大小写而改变。因此，您无需在此处进行任何更改，只需为您的用例选择模型即可。

去除高频词 ——
Bert 使用 Transformer 模型，该模型适用于注意力原则。
因此，当您针对任何问题对其进行微调时，它只会查看那些会影响输出的单词，而不查看所有数据中常见的单词。

关于nlp - 使用经过训练的 BERT 模型和数据预处理，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63979544/