深入解析360智脑RAG方案：SuperCLUE-RAG榜单夺冠背后的技术洞察

日期：2025/04/07 02:02来源：未知人气：53

导读：1.引言近两年，检索增强生成（RAG，Retrieval-Augmented Generation）技术正在成为提升大模型性能的关键工具。RAG技术通过引入外部知识，结合检索与生成的双重能力，为大模型在复杂场景中的应用提供了更多可能性。无论是文档解析的质量、上下文信息的精确性，还是针对任务的合理规划，RAG的每一步都在为模型能力的上限奠定基础。2024年11月，360智脑团队自......

1.**引言**

近两年，检索增强生成（RAG，Retrieval-Augmented Generation）技术正在成为提升大模型性能的关键工具。RAG技术通过引入外部知识，结合检索与生成的双重能力，为大模型在复杂场景中的应用提供了更多可能性。无论是文档解析的质量、上下文信息的精确性， 还是针对任务的合理规划 ，RAG的每一步都在为模型能力的上限奠定基础。

2024年11月，360智脑团队自研RAG在中文评测基准SuperCLUE-RAG专项榜单中表现优异取得榜单第一 ，本次评估是自研RAG技术与360GPT-Pro模型结合，在各项子指标上表现均衡。验证了360智脑在RAG技术优化上的实践价值，为复杂场景下的大模型应用提供了参考范式。

图1：2024年11月份SuperCLUE-RAG总榜榜单

图2：2024年11月份SuperCLUE-RAG评估四大基础任务分数

本篇文章将深入探讨RAG技术的核心特性及其在实际业务场景中的应用表现，分析高效RAG系统应具备的关键能力，并以360智脑的RAG方案为例，分享其技术优化过程与实践经验。我们希望通过这篇技术分享，为关注RAG技术的读者提供参考与启发。

2.为什么大家这么关注RAG技术？

2.1 大模型为什么需要RAG？

在大模型（LLM）落地过程中，存在诸多挑战，如缺乏企业私有知识存在幻觉问题、训练周期长成本高、知识更新不及时的问题以及模型的黑箱属性缺乏可解释性的问题等。而RAG（Retrieval-Augmented Generation，检索增强生成）技术的引入，可以有效地解决这些问题。

LLM缺乏企业的私有知识，存在严重幻觉问题。 大模型通常基于互联网公开数据进行训练，难以涵盖企业的私有知识。RAG技术通过构建企业私有知识库，实现私有知识注入，使得模型能够更好地服务于企业的具体需求。
LLM训练周期长成本高，存在知识更新不及时。 大模型的训练周期长且成本高，更新知识需要耗费大量资源。通过迭代管理知识库内容，RAG技术能够实现知识的快速更新，而无需重新训练整个大模型，从而大大降低了成本和时间。
LLM属于黑箱模型，缺乏可解释性。 大模型的黑箱属性使其回答缺乏可解释性。RAG技术可以显示答案的引用文档信息，提高了回答的透明度和可解释性，让用户可以追溯答案信息的来源，增强了模型的可信度。

2.2 RAG的定义和作用

RAG，全称为Retrieval-Augmented Generation ，是一种结合了信息检索（Retrieval）和文本生成（Generation）的技术。具体来说，RAG模型在生成回答时，不仅依赖于预训练的语言模型，还会从一个大型的文本库中检索相关的信息，以增强生成的准确性和丰富性。这种方法通过引入外部知识，弥补了单纯依赖生成模型时可能存在的信息不足和错误。RAG模型通常包括两个主要组件：

检索器（Retriever）。 负责从预定义的文档集合中检索与输入查询相关的文档或片段。
生成器（Generator）。 利用检索到的文档或片段作为上下文，生成连贯且与查询相关的回答。

这种方法的优点在于，它能够利用外部知识库中的丰富信息来增强生成模型的表现，从而生成对输入查询更有针对性、更相关的内容。

2.3 RAG典型的应用场景

RAG能够在多个应用场景中发挥重要作用。以下是几个主要的应用场景：

数字员工。 RAG 技术可以用于开发智能数字员工，这些数字员工能够理解并处理复杂的任务。例如，在客服领域，RAG 可以帮助数字员工快速检索相关信息并生成准确的回答，从而提高客户满意度和工作效率。
辅助决策。 在商业决策过程中，RAG 技术可以帮助管理人员快速获取相关数据和信息，并生成有价值的见解。例如，在市场分析中，RAG 可以从大量的市场数据中提取关键信息，并生成分析报告，帮助企业做出明智的决策。
知识管理。 RAG 技术在知识管理中也有广泛的应用。它可以帮助企业构建智能知识库，通过检索和生成技术，快速找到并提供所需的信息。例如，在技术支持和培训中，RAG 可以帮助员工快速获取技术文档和操作指南，提高工作效率。
内容创作。 内容创作是 RAG 技术的另一个重要应用场景。RAG 可以帮助创作者生成高质量的内容，如文章、报告、广告文案等。例如，在新闻报道中，RAG 可以从多个信息源中提取关键事实，并生成连贯的新闻稿，为读者提供及时、准确的信息。

2.4 RAG效果评估的关键特征

在评估RAG系统性能时，有多种评估方案。其中，第三方评测机构的评测是其中一种方案，它涵盖单文档问答、多文档问答、无文档问答 （搜索增强）三种典型使用场景，重点考察以下四个核心维度：

拒答能力 ：模型是否能够在无效或无答案的情况下，准确地拒绝回答。
检错与纠错能力 ：包括对错误信息的识别准确性以及修正后的文本正确性。
信息整合能力 ：考察模型在多文档场景下，如何提炼关键信息并生成准确、规整的回答。
答案及时性 ：评估模型回答的准确性与清晰度是否能够满足快速响应的要求。

以下是实践案例：

拒答案例： 针对提问知识库中未覆盖的知识点场景，360智脑RAG能明确拒答，有效避免模型生成幻觉。

图3：2024年11月份SuperCLUE-RAG评估中拒答维度案例

检错与纠错能力： 针对问题与知识库内容不一致的场景，能准确根据外挂知识帮助用户进行纠错

图4：2024年11月份SuperCLUE-RAG评估中检错与纠错维度案例

信息整合能力： 针对复杂查询场景，能全面召回跨文档的相关信息并准确整理进行回答。

图5：2024年11月份SuperCLUE-RAG评估中信息整合维度案例

答案时效性： 针对询问时效性信息场景，能及时联网查询获取最相关答案

图6：2024年11月份SuperCLUE-RAG评估中答案时效性维度案例

通过这些评测，我们可以清晰地看到，一个高效的RAG系统不仅需要精准的检索与生成能力，更需要在多文档、无文档场景下展现强大的信息处理能力和响应效率。对于RAG的应用场景及未来发展方向，这些指标也提供了重要的参考标准。

3.360智脑RAG方案

在RAG发展迭代演进过程：逐步经历了基础RAG、高级RAG和模块化RAG。RAG通常又包括三个阶段：建库阶段、检索阶段、生成阶段。 以下是360智脑RAG的整体架构图。

图7: 360智脑RAG技术架构图

快速搭建一个RAG demo很简单，但要在真实业务场景上进行落地并取得好的效果往往比较难。根据360智脑RAG的迭代经验，总结出做好RAG的六大观点：

观点1： 文档解析的质量决定了RAG能力的上限

在RAG过程中，文档解析起着至关重要的作用。

首先， 文档解析能够有效地提取和理解文档中的关键信息，从而为后续的信息检索和生成提供准确的基础。
其次， 通过对文档的深入解析，可以更好地捕捉上下文关系，使得生成的内容更加连贯和符合逻辑。
此外， 精确的文档解析还能够帮助识别和过滤噪音信息，确保检索到的内容具有高质量和高相关性。
总之， 文档解析是RAG过程中不可或缺的一环，它直接影响到信息检索的效率和生成内容的质量。

图8: 建库关键技术之文档解析

在文档解析过程中，我们通常会遵循以下几个步骤。

第一步， 文档统一会被转换成PDF格式。
第二步， PDF文件会被分割并按页渲染成图像，以便后续的图像处理和分析。
第三步， 我们会使用版面分析模型来识别文档中的各种元素，如标题、正文、表格、图片、图表和公式等。
第四步， 不同的元素再用不同的模型识别处理，如标题和文本用OCR模型识别；表格用表格模型识别还原数据；公式用公式模型识别出latex公式。
最后一步， 这些识别出的元素会按照阅读顺序进行排序，并输出为markdown格式，以便于进一步编辑和使用。通过这些步骤，我们能够高效地解析和处理各种复杂的文档。

观点2：**细粒度、语义级、边界精确的文档切片对RAG至关重要**

在RAG过程中，chunking方式的选择至关重要。

第一点， chunking可以将大段文本拆分成更小的、易于管理的块，从而提高信息检索的效率。通过合理的chunking，可以确保每个块包含足够的信息，使得生成模型能够更准确地理解和生成相关内容。
第二点， chunking有助于减少噪音和冗余信息的干扰，使检索结果更加精确和相关。
第三点， 适当的chunking还可以优化计算资源的利用，减少处理时间和内存消耗。因此，chunking方式在RAG过程中不仅影响信息检索的质量，还直接关系到整个系统的性能和效率。

图9: 建库关键技术之切段

先根据文档的篇章目录结构对文档进行初步的语义切分。这一步的目的是将文档按照自然的段落或章节进行划分，使每个部分都有明确的主题和内容。这种结构化的划分有助于后续的处理和信息检索。接下来，对于每个初步切分后的段落或章节，如果其长度超过了预设的限制（例如，超过特定的字数或句子数），则需要对其进行递归切分。这一步的目的是确保每个文本块的长度在可控范围内，以便后续的处理和生成过程能够高效进行。

观点3：**针对文档内容的多样化数据增强策略是一种有效的提升RAG效果的方案**

在RAG建库阶段，数据增强对于提升检索效果至关重要。

生成QA对。 通过根据内容生成QA对，可以丰富数据的语义信息，使得模型在回答问题时更加准确。
生成摘要。 对片段做摘要总结，有助于提取关键信息，提高检索效率和准确性。
添加元数据。 提取日期、页码等元数据，可以为检索提供更多维度的信息，方便用户快速找到所需内容。
构建知识图谱。 提取实体和关系并构建知识图谱，能够将数据中的隐含关系显性化，增强模型的理解能力，从而提升整体检索效果。

通过这些数据增强手段，可以显著提高RAG系统的性能和用户体验。

图10: 建库关键技术之数据增强

观点4：**准确的query理解和任务规划策略对于RAG召回至关重要**

检索策略的选择对结果的准确性和相关性至关重要。

首先， query纠错、指代消歧和query改写能够帮助系统更好地理解用户的意图，通过将原始查询转换为更易于处理的形式，提高检索效果。
其次， 泛化子查询可以扩展查询范围，确保涵盖更多潜在的相关信息。query意图判定则是通过分析用户查询背后的真实需求，进一步优化检索结果。
最后， 回溯提示功能允许系统先考虑层次的概念和原则以解决复杂问题。这些查询策略的综合应用，能够显著提升RAG系统的性能和用户满意度。

图11: 检索关键技术之检索策略和query预处理策略

观点5：**精确、丰富、完备、不含噪声的上下文信息对大模型是友好的**

使用较小的文本块可以显著提高检索的准确性，因为较小的块能够更精确地匹配查询内容，从而提供更加相关的检索结果。然而，在生成阶段，使用较大的文本块则能提供更多的上下文信息，帮助生成更加连贯和详尽的回答。此外，确定合适的上下文边界同样重要，避免包含主题无关的内容，以确保生成内容的准确性和相关性。以下是关于如何通过 RAG Small2Big 扩展上下文的方法：

通过chunk召回相关片段。 将原始文章分成多个小块（chunk），每个小块包含一定数量的句子或段落。检索阶段可以有效地找到与当前内容相关的上下文信息。
通过文章的篇章标题结构确定上下文边界。 在扩展上下文时，考虑文章的整体结构，特别是篇章标题。这有助于确定各部分内容的主题和边界。确保召回的片段与当前段落所在的章节或小节内容一致，从而保持上下文的连贯性和逻辑性。
通过NLP技术过滤掉无关噪声片段。 采用技术如：1) NLI模型过滤 ，通过训练独立的NLI模型对召回结果进行语义相似性判断，保证性能的同时可有效过滤无关内容；2)实体识别过滤 ，通过提取query和召回question里的实体，维护实体+别名库，可实现别名的召回以及关键实体缺失的过滤；3) 规则引擎过滤 ，实际应用中总有一些corner case覆盖不到，通过规则引擎运营自定义规则，来实现干预处理，常见的规则，如完全精确匹配 、包含匹配 、正则匹配 、模糊匹配(语义匹配)。

在扩展过程中，注意保持语义的完整性，避免引入无关或矛盾的信息。

观点6：**用好慢思考能力，推理和反思能够帮助RAG提升能力上限**

推理和反思起着至关重要的作用。

第一， 进行查询预处理是整个过程的基础，通过对查询进行优化和标准化，可以提高检索的准确性和效率。
第二， 任务规划是关键步骤，它决定了如何有效地组织和调度检索任务，以确保高效利用资源。
第三， 在生成初步结果后，反思阶段尤为重要，通过对生成内容进行审查和评估，可以发现潜在的问题和改进点。

通过多轮迭代，不断进行推理和反思，可以逐步提升结果的质量和可靠性，最终获得高质量的输出。

图12: 检索和生成协同进行推理和反思

在用户输入问题后，LLM模型先对问题进行分析和规划，这个过程被称为链式思考（Chain of Thought, COT） 。COT帮助模型分解问题，确定需要检索的信息类型和生成答案的步骤。之后，模型会进行信息检索，从预定义的知识库或文档集中提取与问题相关的内容。这一步确保模型能够访问到最新和最准确的外部信息。

在完成信息检索后，LLM模型将检索到的内容与自身的生成能力结合起来，生成一个初步的答案。这个生成过程不仅依赖于检索到的信息，还利用了模型的内在语言生成能力，以确保答案的连贯性和流畅性。

最后， LLM模型会对生成的答案进行验证和反思。验证步骤包括检查答案的准确性和一致性，而反思则是对生成过程进行评估，找出可能的改进点。这一循环过程使得RAG能够不断优化其问答能力，提供更加精确和有用的答案。

4.**总结**

文档解析的质量决定了RAG能力的上限。
细粒度、语义级、边界精确的文档切片对RAG至关重要。
针对文档内容的多样化数据增强策略是一种有效的提升RAG效果的方案。
准确的query理解和任务规划策略对于RAG召回至关重要。
精确、丰富、完备、不含噪声的上下文信息对大模型是友好的。
用好慢思考能力，推理和反思能够帮助RAG提升能力上限。

上一篇：2024 WAIC召开三六零张向征：360智脑诠释大模型在实际场景中的高效落地

下一篇：SuperCLUE中文通用大模型基准测评发布：“360智脑”多项能力国内领跑

深入解析360智脑RAG方案：SuperCLUE-RAG榜单夺冠背后的技术洞察

相关SenseNova

SenseNova推荐

SenseNova排行