nlp - RAG架构中嵌入模型和LLM推理模型之间的关系

标签 nlp huggingface-transformers nlp-question-answering large-language-model

我正在尝试使用西类牙语文档在 AWS 中实现 RAG 架构。

我的问题如下:如果我使用经过英语或多语言训练的模型生成文档的嵌入,这重要吗?或者我是否必须使用专门用西类牙语训练的模型来生成嵌入?

我目前正在使用 GPT-J-6b 模型来生成嵌入,并使用 Falcon-40b 模型来生成响应(推理),但是在进行相似性搜索时,我没有得到好的结果。

我的另一个问题是:使用相同的模型来生成嵌入和生成推理是否是一种好的做法?

最佳答案

GPT-J-6b 在 The Pile 上进行训练,主要是英语,EuroParl 部分除外,其中包含西类牙语,但可能与您的文本不在同一域。这使得 GPT-J-6b 不太适合生成西类牙语文本的嵌入。

您应该使用经过西类牙语数据训练的模型,可以仅使用西类牙语或多语言。当然,训练数据域与您的数据域越不同,您得到的匹配就越差。

关于使用相同的模型来生成嵌入和生成推理,这应该不重要。它们应用于架构的不同部分。

关于nlp - RAG架构中嵌入模型和LLM推理模型之间的关系,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/76781751/

相关文章:

machine-learning - Keras 保存的模型预测不同 session 上的不同值

python - spaCy NLP 管道操作顺序

memory-management - 如何计算Bert的内存需求?

python - 如何在 Huggingface 模型中获得 token 的概率分布?

java - 在java中嵌入jape规则(Gate)

python - 显示 NLTK 中的标签概率/置信度

python - Huggingface 变形金刚模块未被 anaconda 识别

C++ 在构造函数中删除对象?

deep-learning - 使用 LSTM 构建闭域 QA 系统

python - 提出动态问题以获取信息