文 | 北京师范大学 郭宇 王悦;香港大学 徐仕远
随着全球人工智能技术的加速迭代,国产大模型在过去一年实现了跨越式突破。以DeepSeek、豆包等为代表的具有自主知识产权的高质量国产大模型不断涌现,标志着我国在千亿级参数模型研发领域达到国际先进水平。2025年《政府工作报告》明确提出:“持续推进‘人工智能+’行动,将数字技术与制造优势、市场优势更好的结合,支持大模型广泛应用”。因此,基于国产大模型的创新应用迎来了前所未有的发展机遇。
然而,国产大模型在能力飞速跃迁的同时,也面临着严峻的数据安全挑战。一方面,训练数据泄露、后门攻击、对抗样本攻击等风险在大模型中普遍存在。另一方面,由于国产大模型所处的技术生态、应用场景和数据环境等独特背景,可能面临数据合规、认知侵蚀等更为特殊、复杂的数据安全风险。以教育领域的大模型为例,受攻击的大模型可能生成含有知识性错误的内容,模型产生的价值偏差还可能扭曲学生的认知。国产大模型在医疗、金融等垂直领域的应用也面临类似的数据安全风险,不仅威胁技术应用效能,更深层次地侵蚀着智能时代的认知安全防线。因此,唯有实现技术创新与安全防护的动态平衡,方能在全球人工智能治理格局中确立中国方案的话语权。
一、数据安全风险
数据作为人工智能技术发展的基础要素,在其全生命周期中面临着多重安全风险。具体而言,国产大模型的数据安全风险主要体现在三个核心维度:数据泄露风险威胁着信息资产的机密性,恶意数据风险动摇着算法模型的可靠性,数据合规风险挑战着技术应用的合法性。这三重风险的叠加效应,不但侵蚀着用户对国产大模型应用系统的信任基础,还可能对人工智能技术的可持续发展构成系统性威胁。
(一)数据泄露风险
当前,国产大模型的数据泄漏风险主要集中在三个核心环节。
一是训练数据泄露风险,隐私信息被逆运算出来。大模型训练高度依赖海量数据优化模型表现,而训练数据通常包含着隐私敏感信息。例如,教育大模型的训练数据可能涉及教材、答题记录、师生课堂行为等内容,这些信息存在被“算”出来的风险。若缺乏保护措施,攻击者可通过成员推断攻击,利用模型输出反推某条数据是否在训练集中。如果训练数据包含师生的个人信息,攻击者甚至可以通过多次攻击重构个体身份,侵犯用户隐私。
二是交互信息泄露风险,大模型对话不再安全。大模型应用部署所依赖的云计算平台、微服务架构和数据库等基础设施一旦存在安全漏洞,就可能成为攻击的突破口。在教育大模型的应用中,学生通常会向模型输入包含个人隐私的个性化问题,而模型生成的解题思路和作文批改等内容也可能涉及敏感信息。若传输链路或服务器等基础设施存在安全漏洞,攻击者便可截获敏感交互信息,造成数据泄露。此外,攻击者也可以通过提示注入操控模型输出,诱导其泄露后台指令或内部知识库内容。
三是模型参数窃取风险,模型被恶意复制。模型参数是大模型的核心资产,以教育大模型为例,其参数中往往沉淀着海量教学方法、知识点关联等高质量信息。若缺乏保护措施,攻击者可通过模型逆向工程,反复查询模型,推测模型参数结构并复现功能相似的“山寨模型”。然而,更隐蔽的风险在于模型参数中隐含的训练数据特征,可能间接导致数据泄漏。
(二)恶意数据风险
国产大模型面临的恶意数据风险更为隐蔽,主要包括两类威胁路径。
一是训练数据投毒风险,扭曲模型认知。数据投毒风险源自大模型训练数据的开放性与质量控制失衡。目前主流的训练数据源自公开数据、网络文本及用户生成内容,其多源异构特性使得数据清洗难度呈指数级增长。攻击者可以利用数据监管盲区,通过投毒、后门攻击等方式,定向注入误导性内容,进而实现价值观渗透。在教育领域,数据投毒将引发三重连锁反应。首先,直接导致模型输出知识性错误。其次,隐性偏见会扭曲模型价值判断基准,可能在学生认知形成的关键期产生意识形态塑造风险。最后,引发系统性信任危机,严重制约人工智能技术应用效能。
二是对抗样本攻击风险,威胁模型决策可靠性。对抗样本攻击主要是通过挖掘大模型特征空间的鲁棒性缺陷以及抗干扰能力不足,恶意影响大模型的决策。攻击者利用模型决策边界脆弱性,通过对输入数据施加人类难以察觉的扰动,实现在特征空间形成误导性映射效应。以教育领域为例,教育大模型的多模态输入特性加剧了多模态脆弱性,尤其在作业批改、语言学习等开放教学场景中,存在对抗样本输入导致大模型错误输出的风险,使学生在无意识中接受错误逻辑。
(三)数据合规风险
尽管数据治理技术与监管框架日益完善,国产大模型仍面临着两个关键的数据合规风险。
一是数据收集违规风险。国产大模型在发展过程中面临的数据收集违规风险,源于数据隐私保护法规体系与企业技术发展需求之间的不匹配。国内数据合规监管框架仍处于动态完善阶段,部分企业对数据合规边界理解模糊,加之大模型训练需海量多源数据支撑,企业在数据采集环节存在未经充分授权爬取公开数据、违规使用隐私信息等问题。
二是生成内容合规风险。国产大模型生成内容的合规性问题,根源在于技术逻辑缺陷、数据治理不足与外部环境复杂性的叠加。国产大模型的训练数据存在内在偏差和污染风险,例如,训练语料中可能混杂未筛选的错误价值导向内容。此外,算法设计的局限性使得模型对复杂场景的合规性检测能力不足。若过滤机制仅依赖简单的关键词屏蔽,则难以应对隐蔽性强的有害内容生成检测需求。大模型生成的“幻觉数据”可能带来价值观冲突和公众信任度下降等负面影响。
二、技术防御对策
针对国产大模型应用所面临的数据泄露、恶意攻击与合规失控等安全挑战,需要在数据采集到模型部署的全流程中,构建覆盖全生命周期、多维度的技术治理体系,筑牢国产大模型的安全防线。
(一)数据采集与预处理阶段
数据采集与预处理作为国产大模型数据安全治理的基础,其风险控制需要聚焦两个环节。
一是构建数据合规准入机制。针对国产大模型训练数据面临的合规性挑战,需要建立严格的准入机制。首先,构建分类分级的数据采集标准,依据《数据安全法》和《个人信息保护法》等法律法规制定行业数据分级指南,对教育、医疗等领域数据进行敏感程度等级划分,明确不同层级数据的采集范围与处理权限。通过精细化分类管理,避免超范围采集高敏数据,降低数据滥用风险。其次,考虑使用技术手段动态评估数据合规性,利用人工智能技术自动检测数据集中的未脱敏信息和非法跨境传输行为,降低企业因监管滞后导致的被动整改成本。
二是建设训练数据安全治理体系。针对国产大模型训练数据面临的投毒攻击、对抗样本植入等新型安全威胁,需建立覆盖预处理、动态检测、深度清洗的多级防御体系。首先,依据《生成式人工智能服务管理暂行办法》等关于数据质量安全的政策要求,制定行业标准,明确投毒攻击、对抗样本植入等安全威胁的防御基线。其次,针对攻防动态性的特点,组建“政产学研用”数据安全联盟,搭建恶意样本特征库共享平台,持续对训练数据进行有效评估清洗,保障训练数据的可信可用。
(二)模型预训练与微调阶段
模型预训练与微调作为国产大模型安全防御的关键阶段,需要从两方面入手构建数据安全体系。
一是应用隐私增强训练框架。针对国产大模型训练中的数据隐私泄露风险,需要建立多层次防护架构。首先,参考《人工智能安全标准化白皮书》的相关要求,从算法层面制定隐私增强训练框架的行业标准,明确数据隐私保护基线。其次,硬件级防护也是可采用的安全训练框架。参照《面向大模型训练与推理数据保护的可信执行环境技术要求》的相关建议,通过部署基于硬件加密的可信执行环境,对敏感数据和关键操作进行安全沙箱隔离,防止恶意节点窃取中间计算结果。
二是加强鲁棒性强化设计。针对国产大模型在对抗环境中的脆弱性,需要建立动态训练、多维评估和迭代优化的闭环增强体系。首先,在训练阶段注入多类型对抗样本,例如文本字符扰动、图像几何畸变、音频频谱遮蔽等,构建动态对抗训练集,通过迭代式对抗攻击-防御循环优化模型参数鲁棒性。此外,通过构建鲁棒性评估与迭代优化体系,可以提升模型在对抗环境下的综合稳定性,建立涵盖多类别攻击场景的标准化测试集,自动化测试得到量化模型鲁棒性指标,并反馈至训练环节进行防御强化。
(三)部署与应用监控阶段
部署与应用监控阶段作为大模型安全治理的最后防线,应从两个关键阶段入手实现管控闭环。
一是应用实时风险感知策略。针对国产大模型交互接口面临的模型窃取、数据泄露等安全风险,需建立实时风险感知策略。首先,构建多维度异常行为智能分析引擎,在接口部署异常查询检测模块,分析请求多维特点,并根据风险指数自动匹配弹性应急响应策略,实现入口处的实时风险感知。同时,依托虚拟化攻防靶场,定期开展新型攻击模拟推演,动态更新防御策略知识库。
二是部署生成内容合规引擎。针对国产大模型的内容安全风险,需建立多维度的防御架构。首先,需要衔接《人工智能生成合成内容标识办法》《新一代人工智能伦理规范》等人工智能伦理规范的要求,将核心价值观融入模型训练全流程。其次,考虑整合敏感信息特征库与语义风险识别模型,实现高风险表述的实时拦截。最后,人机协同的高风险决策机制同样重要,将高风险内容自动分配至人工审核,对自动审核的结果进行查漏补缺,并利用人工审核结果不断改进自动审核的漏洞。
三、结 语
随着国产大模型在技术能力与应用场景上的突破,其数据安全风险治理已从单纯的技术攻防升级为系统性生态构建的命题。当前,数据泄露、恶意攻击与合规失控等问题不仅暴露了国产大模型技术链的脆弱性,更凸显出技术发展与治理能力之间的鸿沟。国产大模型的数据安全防御需突破事后修复的局限,向顶层设计的主动免疫演进。现有数据安全治理多聚焦于事后追责,而国产大模型的复杂性要求治理框架向以事前预防为起点的全周期延伸。国产大模型的安全治理不能止步于技术合规,在确保算法可靠性的基础上,更需要回归“以人为本”的价值锚点,构建法律规制完善、行业标准动态适配、跨部门协同联动的多维度监管生态。2025年“人工智能+”行动的落地,既需技术侧攻坚难题,亦需在治理侧回答为谁而治的价值之问。唯有以安全为基、以创新为脉、以人文为魂,方能在全球人工智能竞争与合作中,塑造兼具竞争力与责任感的可持续发展智能方案。
(本文刊登于《中国信息安全》杂志2025年第3期)