我的数据集和 NLP 任务与作者预训练模型 (https://github.com/google-research/bert#pre-training-with-bert) 的大型语料库非常不同,因此我无法直接微调。 是否有任何示例代码/GitHub 可以帮助我用自己的数据训练 BERT?我希望得到像手套一样的嵌入。
非常感谢!
最佳答案
是的,您可以获得 BERT 嵌入,就像使用 extract_features.py
脚本的其他词嵌入一样。您可以选择需要输出的层数。用法很简单,你必须在文本文件中每行保存一个句子并将其作为输入传递。输出将是一个 JSONL 文件,为每个标记提供上下文嵌入。
脚本与文档的用法在以下位置提供:https://github.com/google-research/bert#using-bert-to-extract-fixed-feature-vectors-like-elmo
关于word-embedding - 如何将 BERT 预训练嵌入与我自己的新数据集一起使用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56584046/