nlp - RAG架构中嵌入模型和LLM推理模型之间的关系

我正在尝试使用西类牙语文档在 AWS 中实现 RAG 架构。

我的问题如下:如果我使用经过英语或多语言训练的模型生成文档的嵌入，这重要吗？或者我是否必须使用专门用西类牙语训练的模型来生成嵌入？

我目前正在使用 GPT-J-6b 模型来生成嵌入，并使用 Falcon-40b 模型来生成响应(推理)，但是在进行相似性搜索时，我没有得到好的结果。

我的另一个问题是:使用相同的模型来生成嵌入和生成推理是否是一种好的做法？

最佳答案

GPT-J-6b 在 The Pile 上进行训练，主要是英语，EuroParl 部分除外，其中包含西类牙语，但可能与您的文本不在同一域。这使得 GPT-J-6b 不太适合生成西类牙语文本的嵌入。

您应该使用经过西类牙语数据训练的模型，可以仅使用西类牙语或多语言。当然，训练数据域与您的数据域越不同，您得到的匹配就越差。

关于使用相同的模型来生成嵌入和生成推理，这应该不重要。它们应用于架构的不同部分。

关于nlp - RAG架构中嵌入模型和LLM推理模型之间的关系，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/76781751/