word-embedding - 如何将 BERT 预训练嵌入与我自己的新数据集一起使用?

标签 word-embedding transfer-learning bert-language-model

我的数据集和 NLP 任务与作者预训练模型 (https://github.com/google-research/bert#pre-training-with-bert) 的大型语料库非常不同,因此我无法直接微调。 是否有任何示例代码/GitHub 可以帮助我用自己的数据训练 BERT?我希望得到像手套一样的嵌入。

非常感谢!

最佳答案

是的,您可以获得 BERT 嵌入,就像使用 extract_features.py 脚本的其他词嵌入一样。您可以选择需要输出的层数。用法很简单,你必须在文本文件中每行保存一个句子并将其作为输入传递。输出将是一个 JSONL 文件,为每个标记提供上下文嵌入。

脚本与文档的用法在以下位置提供:https://github.com/google-research/bert#using-bert-to-extract-fixed-feature-vectors-like-elmo

关于word-embedding - 如何将 BERT 预训练嵌入与我自己的新数据集一起使用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56584046/

相关文章:

python - PyTorch 中的标签平滑

tensorflow - 如何将学习从 tensorflow 1.14 转移到 tf 2?

tensorflow - 我转换后的 tensorflow 迁移学习模型总是在 Tensorflow JS 中返回相同的结果

bert-language-model - PyTorch 中 Bert 预训练模型推理的正常速度是多少

named-entity-recognition - 如何使用经过训练的 BERT NER(命名实体识别)模型来预测新示例?

python - 使用 gensim 加载经过训练的 fasttext 模型时出现问题

keras - keras.tokenize.text_to_sequences 和词嵌入有什么区别

python - 单词A和B的语义相似度 : Dependency on frequency of A and B in corpus?

word2vec - word2vec评估结果解读

nlp - 此类 AutoModel : AutoModelForSeq2SeqLM 无法识别的配置类 <class 'transformers.models.bert.configuration_bert.BertConfig' >