博客 FIT-RAG:利用事实信息和大模型偏好来增强输出、减少Token浪费的新颖RAG框架

FIT-RAG:利用事实信息和大模型偏好来增强输出、减少Token浪费的新颖RAG框架

   数栈君   发表于 2024-04-01 23:33  134  0

由于大型语言模型(LLMs)拥有极其庞大的参数数量,为了更新长尾或过时知识而对其进行微调在许多应用中是不切实际的。为了避免微调,可以将LLM视为一个黑盒(即,冻结LLM的参数),并通过检索增强生成(RAG)系统来增强它,这就是所谓的黑盒RAG。最近,黑盒RAG在知识密集型任务中取得了成功,并引起了广泛关注。现有的黑盒RAG方法通常会对检索器进行微调以迎合LLM的偏好,并将所有检索到的文档串联作为输入,这存在两个问题:

  • 忽略事实信息LLM偏好的文档可能不包含给定问题的事实信息,这可能会误导检索器,损害黑盒RAG的有效性;

  • Token浪费简单地将所有检索到的文档串联起来会为LLMs带来大量不必要的token,这降低了黑盒RAG的效率。

这些例子展示了大型语言模型(LLM)偏好的检索到的文档,但这些文档并不包含相关的事实信息。这些例子来自于TriviaQA训练集,并且答案是使用Llama1-13B-Chat生成的。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/21e53d658f0647428b8e64d9d9a7751f..jpg

为了解决这些问题,提出了一个新颖的黑盒RAG框架,它在检索中利用事实信息,并减少了输入的令牌数量,称为FIT-RAG。通过构建一个双标签文档评分器来利用事实信息,该评分器分别将事实信息和LLM的偏好作为标签。此外,它通过引入自我知识识别器和子文档级令牌减少器来减少令牌,这使得FIT-RAG能够避免不必要的增强,并尽可能减少增强令牌。
FIT-RAG架构

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/073775bfc40c4d1c5b05e60239d67a89..jpg

FIT-RAG包含以下组件

  • 基于相似性的检索器:用于从知识库中检索与问题相关的候选文档。

  • 双标签文档评分器:对候选文档进行评分,考虑文档是否包含问题的答案(事实信息标签)以及是否能够帮助LLM生成准确回答(LLM偏好标签)。

双标签文档评分器的训练过程

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/7f08046119d2eb2e461ca290f97d2fb8..jpg

  • 双面自我知识识别器:判断LLM是否已经具有回答问题的内部知识,从而决定是否需要外部检索。

双面自我知识识别器的推理过程

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/90fac96ce49e8524d5ac56d0bf1444d4..jpg

  • 子文档级令牌减少器:通过选择最相关的子文档组合来减少输入令牌的数量,避免不必要的信息输入。

    子文档级令牌减少器的推理过程,在这里,以一个问题的三个文档为例

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/46915cfaab53a342b0b987192f82a906..jpg

  • 提示构建模块:根据问题、自我知识识别器的结果和令牌减少器的输出来构建输入提示,引导LLM生成答案。

有和没有RAG情况下的提示模板

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/dba1c7bdcba0bfe1830eace08792e2ed..jpg

FIT-RAG在三个开放域问答数据集上进行了测试:TriviaQA、NQ和PopQA。实验结果表明,与未经检索增强的Llama2-13B-Chat模型相比,FIT-RAG显著提高了回答问题的准确率,分别在TriviaQA、NQ和PopQA数据集上提高了14.3%、19.9%和27.5%。此外,FIT-RAG在平均令牌消耗上节省了约一半,这表明了其在提高效率方面的显著优势。证明了FIT-RAG其在处理长尾知识和时效性信息方面的有效性,并展示了其在知识密集型任务中的潜力。
在TriviaQA数据集、NQ数据集和PopQA数据集上的答题准确率方面,基线方法与FIT-RAG方法之间的比较。输入令牌表示每个问题的平均输入令牌数量。对于Llama2-13B-Chat和ChatGPT,直接输入问题并指示它们给出答案。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/17d4704e68efec60a4c5b8c2aa7da72d..jpg

https://arxiv.org/pdf/2403.14374.pdfFIT-RAG: Black-Box RAG with Factual Information and Token Reduction



本文系转载,版权归原作者所有,

转载自公众号

PaperAgent  如若侵权请联系我们进行删除!  



《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057/?src=bbs

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001/?src=bbs

《数栈V6.0产品白皮书》下载地址:https://www.dtstack.com/resources/1004/?src=bbs

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack 
0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群