如今,随着人工智能快速发展,大规模语言模型正在渗透到我们工作和生活的方方面面。然而,如何让AI生成的内容更加可信、可追踪,一直是学术界和工业界关注的焦点。想象一下,向 ChatGPT 提出一个问题,不仅得到答案,而且还注明每个句子的来源,就像在学术文章中一样。这是大规模溯源语言模型必须解决的核心问题。 C²-Cite是北京邮政局百家AI团队和小米大规模建模团队提出的大规模溯源模型,是首个情境感知归因生成技术。这不仅可以让大规模模型在内容生成过程中自动标记准确的信息源,还可以保证生成的内容与其所引用的外部知识在语义上高度一致。认识到所有代表ion具有溯源基础,与参考来源紧密对接,从根本上解决了大规模模型产生内容的可靠性问题。这项工作被收录在重要的国际会议 WSDM 2026 中。C²-Cite 通过引入“上下文感知”机制,将引用标记从被动占位符转换为具有上下文语义的特殊标记,解决了现有归因模型中的一个主要缺陷,显着提高了引用的质量和模型响应的准确性。文章标题:C²-Cite: Contextually Aware Citation Generation for Large Attributed Language Models 文章链接:https://github.com/BAI-LAB/c2cite/blob/main/paper_wsdm_c2cite.pdf 代码仓库:https://github.com/BAI-LAB/c2cite 简介 在信息爆炸的时代,大规模语言模型可以生成流畅的文本,但存在“错觉”(即虚假或不准确)的问题内容)一直让研究人员感到担忧。增加信赖度为了验证模型结果的准确性,研究人员提出了一种归因技术,为文章添加清晰的参考标签(例如[1]、[2]),将每个句子链接到特定的信息源。然而,现有的归因模型存在重大缺陷。 1、技术路径有其固有的局限性。情境归因学习(P-ICL/I-ICL)基于快速工程或迭代搜索,耗时且泛化能力弱。指令调优归因过度依赖高质量训练数据,缺乏与参考上下文的主动关联,显着削弱了大规模模型的溯源能力。 Post-Hoc采用两步流程,但很难精确到句子级别,并且缺乏固有的归因能力。 2. 引用标记减少为“通用通配符”。现有模型没有给出引用标记(例如[i])的上下文含义,仅将引用标记视为me无意义的符号,造成参考文献与其所指内容脱节,降低知识整合效果。 3. 引用的质量和答案的准确性之间存在不平衡。有些模型可以提高引用的准确性,但会破坏答案的语义连贯性和准确性。其他模型的参考资料令人困惑,因此很难支持答案。可靠性;这些问题将导致现有模型引用错误和虚构,禁用可追溯性,并通过破坏答案的逻辑来降低精度,从而难以同时满足“可靠引用”和“有效答案”的基本要求。 C²-Cite溯源机制 针对上述缺陷,北邮百家AI团队联合小米提出了大规模上下文感知溯源模型框架(C²-Cite)。核心思想是利用“上下文语义整合”将引用标记从被动占位符转变为引用标记转化为具有明确语义导向的主动知识指标。具体来说,它包括三个关键组成部分: 1. 上下文感知集成机制。上下文感知嵌入:将多个标记(例如“[i]”)中的引用标记标准化为单个引用符号标记(例如“ᵢ”),并使用平均池化计算相应检索到的文档的无意义生锈,取代传统的无意义占位符嵌入,并确保引用标记保留其所指对象的语义信息。文档。 2.上下文引用对齐机制上下文引用对齐:我们引入引用路由器(二元分类器)来区分默认令牌和引用令牌,并优化两类令牌的损失函数。默认标记使用交叉熵损失来保证响应的平滑性,并且参考标记与通过语义相似性匹配获得的文档精确对齐。 3. 情境关注增强机制上:通过距离衰减因子和注意力约束,放大后续生成的tokens对之前引用token的注意力,保持引用和内容的语义一致性,避免由于引用插入而造成响应的逻辑中断。模型最终的损失函数是默认损失、引文对齐损失、路由器损失和注意力增强损失的加权和,保证引文质量和回复准确性的协同优化。实验研究团队对三个ALCE基准数据集(ASQA、ELI5和QAMPARI)进行了综合评估,并比较了几种传统的归因方法。 3.1 主要实验结果实验结果令人兴奋。引文质量显着提高。 C²-Cite++ 将 F1 引用分数平均提高了 5.8%。响应准确率显着提升,平均提升17.4%ndn 修正指数。泛化能力强:通过不同质量的训练数据(SynSciQA系列),即使使用常规训练数据,它也可以优于依赖高质量数据的传统微调模型。 3.2 效率分析 C²-Cite++在保证有效性的同时也表现出了良好的计算效率。性能测试(每秒处理的样本数)表明C²-Cite++达到了最高的处理速度,在实际应用中具有明显的优势。 3.3 服务模式转变为溯源生成模式。注意力热图可视化直观地展示了C²-Cite的工作机制。在母语法学硕士中,引号前后的句子之间几乎没有交互。在C²-Cite中,前文句子的焦点大大提高,形成紧凑的词典。它意味着连接。这种“语义交叉引用桥梁”是生成高质量追溯内容的模型的关键。概述:C²-Cite 框架通过“上下文感知”的核心概念解决了现有大规模归因语言模型的关键弱点。从符号到语义:将参考标记从被动占位符转变为主动知识指示符。精确对齐:通过路由机制确保参考编号和文档内容的精确匹配。语义一致性:使用注意力强化来保持引用前后内容的流畅性。双重优化:同时提高引文质量和答案准确性。最后,仅仅优化训练数据还不够。大规模模型的可追溯能力需要机械设计和有效的学习方法。相比于复杂的数据合成过程,C²-Cite通过其“情境化”设计理念,在内容生成过程中依托可靠的参考知识库,为构建更可靠、透明的AI轨迹提供了重要的技术路径。能力系统。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。