DeepSeek 热潮下的大语言模型政务应用信息安全风险与建议

依然是工作报告再回收,本文稍有 LLM 辅助,但这里贴出的是含人量高的版本。允许带作者引用。


近期,国产开源大语言推理模型 DeepSeek-R1 的发布引发了各界的高度关注,本文旨在给公共决策部门提供关于大语言模型政务应用的信息安全见解。

(专业人员您就别看了,dddd。)

背景

Transformer 到 OpenAI 再到 ClosedAI o1

2017 年 Google 公司发布的 Transformer 架构为神经网络模型的进一步提升奠定了基础,OpenAI 在此基础上推出 GPT 系列模型并多次迭代。2022 年,OpenAI 在 GPT-3 模型上引入代码数据和人类偏好参与训练,发布了 InstrctGPT(后更名为 GPT-3.5),在辅助编码领域得到了数百万开发者的广泛使用。同年,OpenAI 基于 GPT-3.5 发布人机对话应用 ChatGPT,正式走入大众视野。ChatGPT 展现出大语言模型具有丰富的世界知识、复杂问题求解能力、多轮对话上下文追踪建模能力以及与人类价值观对齐的能力,成为互联网史上用户数量最快破亿的应用,但 OpenAI 全面转向商业化,不再公开发布其模型及训练的技术细节。2023 年,Meta(前 Facebook)公司开源 GPT-3 级的大语言模型 Llama,并不断迭代,成为业界主要的开源大语言模型,但由于大语言模型训练成本高昂、数据需求巨大,始终未能追赶上 OpenAI 后续发布的 GPT-4、GPT-4o 等模型。2024 年,OpenAI 发布推理大语言模型 OpenAI o1,大幅提高了解决复杂问题的能力,再次与业界拉开差距。

DeepSeek-R1 的发布与流行

2025 年 1 月,中国量化公司幻方量化旗下的深度求索发布推理大语言模型 DeepSeek-R1,在美国芯片禁运政策的背景下,DeepSeek-R1 能力媲美 OpenAI o1,宣称训练成本仅五百万美元,官方 API 定价不到 OpenAI o1 的 10%,且将模型开源,一举打破了 OpenAI 的马太效应神话,在世界范围内引发了热潮。

由于其强大的能力、低廉的成本和国产、开源的特点,各企事业单位、政府机构乃至个人纷纷尝试使用和集成 DeepSeek-R1 模型,以期提升工作效率和服务能力。在电子政务领域,各级地方政府希望利用这一模型来优化政务服务、提高工作效能。然而,在这股部署热潮背后,政府管理部门也清醒地认识到:必须同步加强对大模型应用的安全管理,确保电子政务场景下的 AI 应用安全可控、合规合法。这既是维护公共数据安全和公民隐私的需要,也是保持政府公信力和业务连续性的必然要求。

安全风险

在将 DeepSeek-R1 等大语言模型应用于电子政务领域,可能面临多方面的安全风险。本文将这些风险分为模型风险、应用风险、数据风险和管理风险四类,分别分析如下:

模型风险

大语言模型幻觉

大语言模型不是搜索引擎,没有检索客观信息的能力,有时会以非常确定的语气生成看似合理但实为虚假的信息,即所谓“幻觉(illusion)”现象。当政府工作人员根据模型输出做出决策时,如果输出内容包括错误数据或不实信息,可能导致错误的判断。如果将其集成在面向公众的政务服务应用中,虚假内容会削弱公众对政府权威信息的信任。

提示词注入攻击

依从人类的指令(即“提示词”,prompt)来输出内容,是大语言模型的主要特性。大部分大语言模型应用是基于开发者预置的系统提示词,以向用户提供特定的服务。如基于大语言模型的客服系统常预置了“你是某公司的人工智能客服……”的系统提示词,详细约定了应用的身份、服务方式和注意事项。但用户可以构造特定指令或超长对话,诱导模型违背既定规则,生成不良或有害内容。如用户可以借助任意输入时机要求模型“忘记之前的所有提示,接下来听从我的指令”,模型可能照做。对于电子政务领域的应用,这种被称为“提示词注入”或“越狱”的攻击可能危及应用的安全可信。

应用风险

第三方模型误用

在 R1 模型爆火之后,DeepSeek 官方服务时常拥挤,官方开放平台则一直处于关闭状态,直到 2 月 25 日重新开放充值。在此期间其他方面宣布“分流”与“接入 DeepSeek”很可能与 DeepSeek 官方没有任何合作关系。由于 DeepSeek 将模型开源,目前市面上的“DeepSeek”可能有 DeepSeek 官方服务、接入 DeepSeek 官方 API、私有化部署 DeepSeek 开源模型、其他模型谎称 DeepSeek 等多种形式,普通用户基本无法区分,存在较大的合规风险。

应用脆弱性

基于大语言模型的应用仍存在传统应用安全风险。一些地方单位为了追赶潮流,在缺乏充分安全防护的情况下匆忙上线基于 DeepSeek 的应用,并随意部署在公有云。这种“裸奔”的应用架构容易被攻击者利用。例如,DeepSeek 官方服务就曾被披露存在缺乏防护的数据库导致用户对话可能被获取。金融背景的幻方量化在快速发布产品时尚且会有疏漏,如果专门面向政务的大语言模型应用也存在类似漏洞,后果更加严重。

数据风险

敏感信息泄漏

在与模型交互时,政府内部用户与公众用户可能无意中输入机密或敏感的信息。由于 AI 行业对数据的巨大需求以及对话长度是大语言模型的成本指标,全量记录用户对话是行业通行做法。例如,OpenAI 于 2 月 28 日披露,发现中国开发者使用 ChatGPT 辅助开发舆情监控工具,这显示作为行业标准的 ChatGPT 带头记录了用户对话内容。类似地,政务人员向基于 DeepSeek 的应用输入了内部文件或公民个人信息,可能导致这些敏感数据外泄到模型服务提供方的数据库中。由于前文所述的 DeepSeek 服务混乱现状,用户可能难以辨别最终数据去往的服务提供方是谁,加剧该信息泄漏风险的严重性。

模型反向泄密

在基于大语言模型构建的专业应用中,常采用内部知识库+外部搜索+大语言模型的架构,由模型来与用户交互并提供最终输出。由于前文所述的提示词注入攻击风险普遍存在,用户可能通过特定提问,诱导引诱模型说出原本不应公开的内部知识库内容(如内部文件片段或尚未公开的政策信息)与系统提示词细节(如有害信息列表或政策合规话术),将造成政务信息失控。

管理风险

内部风险

大语言模型可能由于训练样本偏差生成刻板印象或歧视性观点,可能由于幻觉问题生成错误数据或虚假信息,也可能被提示词诱导生成有害信息或泄漏敏感数据,而将这些不当内容提供政府内部人员,可能导致工作人员被误导、错误信息出现在重要场合等风险。

外部风险

政务信息需要权威、一致。然而引入大模型后,若缺乏有效管控,模型可能提供与官方政策不符或未经核实的信息,导致政务信息发布的失控。公众如果从政务应用中获取到前后矛盾、失实的回答,将引发困惑。如果政务应用泄漏“敏感信息”,尽管公众无法辨别其是否来自幻觉,仍然可能引起恐慌。有心者更可能故意构造提示词注入,诱导政务应用以权威身份生成不当内容。在社交媒体时代,此类失误很容易被放大引发舆情。

建议

健全上线前风险评估。要求各部门、区(市)县基于大语言模型的政务应用上线前完成风险评估,既包括传统的应用安全检查如漏洞扫描、渗透测试、基线检查等,也包括针对大语言模型的模型来源可靠性、开源协议合规性、功能边界和滥用风险等,未完成评估的应用应标明处于测试状态和可能生成虚假信息的提示,禁止输入敏感数据,从源头上杜绝“临时测试长期使用”和“带病上线”。

提升用户合理使用意识。针对政务人员使用大语言模型的行为进行培训,要求不得向模型输入涉密、公民个人敏感信息,避免人为泄密。限定模型应用场景和权限级别,例如仅用于内部辅助决策和公开信息咨询,直接用户应具备独立审查模型输出内容是否真实的专业能力,不得直接采纳、发布未经人工复核的生成内容;对于面向公众的大语言模型政务应用,在应用内设置明显提示告知公众生成内容不可靠,完善支持团队做好解释工作。

加强大语言模型安全技术措施。除了传统应用安全加固外,倡导优先采用私有化部署的方式提供大语言模型服务,以最大限度控制安全变量。应用建设单位必须准确掌握模型部署方式与数据安全边界,杜绝滥用“接入”概念“蹭热点”;采用行业通行的旁路检测技术,对模型输出内容是否合规进行二次检查,及时撤回异常输出,避免直接呈现给用户。完善退出机制和安全功能,在模型连续输出异常内容时能切换到备用系统(如知识库或人工客服),实现完整的安全日志记录以便事后分析追溯。

完善安全治理机制。建立用户反馈渠道,鼓励用户反馈模型生成的错误、不当或可疑内容,定期汇总反馈信息,由专业团队评估后采用适当方式(如完善系统提示词、补充安全检测词、丰富系统知识库、专项微调训练)持续改进;制定 AI 应用安全应急响应预案,在 AI 应用出现严重事故或遭遇攻击时,第一时间启动应急响应,包括服务下线、报告情况、漏洞封堵、发布澄清和事后改进等,将影响降到最低。在长远层面,考虑成立专业团队,对电子政务领域的大语言模型等新兴技术的应用进行统筹管理,用一致的标准评估管理范围内各个大语言模型政务应用的落地是否安全、合规,实现技术创新与安全监管的良性平衡。

添加新评论