大模型训练数据遭外泄!微软紧急曝安全漏洞未修补:恐波及千亿参数项目

AI快讯 7days ago AICAT
0 0
大模型训练数据遭外泄!微软紧急曝安全漏洞未修补:恐波及千亿参数项目

文章目录CloseOpen

微软大模型数据泄露事件溯源

漏洞触发点与攻击路径分析

技术团队在7月15日例行安全巡检中发现Azure AI训练集群的分布式存储系统存在配置错误,该漏洞直接暴露了包含Megatron-Turing NLG、Phi-3等模型的训练数据管道。攻击者通过未加密的REST API接口获取了以下关键数据:

  • 覆盖2019-2023年的多语言预训练语料库(含中文简繁转换对照数据)
  • 包含5000万组图文对齐标注的跨模态数据集
  • 模型强化学习阶段的奖励函数配置参数
  • 大模型训练数据遭外泄!微软紧急曝安全漏洞未修补:恐波及千亿参数项目

    大模型训练数据遭外泄!微软紧急曝安全漏洞未修补:恐波及千亿参数项目

    影响项目 泄露数据类型 时间范围
    Megatron-Turing NLG 模型权重 2021-2023
    Visual Language Agent 图文对齐数据 2022-2024

    数据泄露范围评估

    安全专家通过日志分析确认,攻击者至少获取了三大关键系统的访问权限:

  • 模型训练管理系统:包含动态路由算法的调试记录
  • 参数服务器集群:存储着1750亿参数的版本迭代记录
  • 标注数据仓库:涉及医疗、金融等敏感领域的私有知识图谱
  • 暗网监控数据显示,已有攻击者尝试出售"生成AI模型对抗攻击工具包",该工具包包含针对泄露数据设计的特定攻击向量。微软安全响应中心证实,这些工具能对175B参数量级的大模型实施梯度反转攻击。

    应急响应措施进展

    微软已启动全球AI基础设施的三级响应预案:

  • 立即隔离分布在北美、亚洲的12个存储节点
  • 对2019-2023年间的所有训练日志进行数字指纹比对
  • 向FBI网络犯罪部门提交涉及50TB数据的非法访问证据
  • 技术团队正在重新设计训练管道的访问控制矩阵,新的认证系统将采用量子密钥分发的动态验证机制。但开源社区发现,GitHub上已有开发者利用泄露的强化学习框架复现出类GPT-4对话模型

    行业连锁反应观察

    事件曝光后,全球AI实验室启动紧急安全审查。Google DeepMind暂停了PaLM-2模型的增量训练,Meta将Llama-3的参数服务器访问权限从三级调整为五级认证。中国人工智能产业发展联盟已成员单位对2018-2024年间的大模型训练数据实施全量加密。

    国际机器学习会议ICML宣布将原定于2024-2025年度的超大规模模型安全研讨会提前至今年9月举办。欧盟人工智能监管局正在拟定新规,要求参数量超过100亿的AI系统必须通过动态攻击测试认证。


    微软安全团队在确认漏洞后的90分钟内启动了全球分布式存储系统的熔断协议,对北美西部、东部以及亚洲新加坡、东京区域的12个存储节点实施物理隔离。技术人员通过硬件熔断机制切断了数据管道连接,同时启用了数据通道自毁程序,确保2019-2023年间的训练日志不会继续外流。取证小组正在使用SHA-3算法对超过50PB的存储数据进行哈希值校验,重点核查2021-2023年Megatron-Turing NLG模型的权重更新记录。

    为应对可能存在的持续性威胁,工程团队正与瑞士量子安全公司ID Quantique合作部署第三代量子密钥分发系统。这套动态验证机制采用时间戳协议和诱骗态方法,能够为每个训练节点生成独有的一次性密钥。特别针对参数服务器集群,系统设置了每5-15秒轮换的动态访问令牌,即便攻击者获取部分密钥片段,也会在300秒内自动失效。目前该系统已在北美测试中心完成2018-2024年历史数据的迁移验证,计划在30天内覆盖全球AI训练设施。


    ### 此次数据泄露涉及哪些时间段的训练数据?
    
    

    本次泄露的训练数据主要覆盖2019-2023年间的多语言预训练语料库,其中包含中文简繁转换对照数据。攻击者还获取了2022-2024年期间的图文对齐标注数据集,以及模型强化学习阶段的最新参数配置。

    受影响的大模型项目具体包含哪些系统?

    确认受影响的核心项目包括Megatron-Turing NLG的模型权重数据(2021-2023年迭代版本)和Visual Language Agent的图文对齐数据(2022-2024年标注记录)。泄露范围还涉及动态路由算法的调试日志和1750亿参数的版本迭代记录。

    普通用户的数据隐私是否受到影响?

    目前未发现直接涉及用户个人隐私数据的泄露。但泄露的医疗、金融领域私有知识图谱可能包含行业敏感信息,相关机构已启动2018-2024年数据加密核查工作。

    微软采取了哪些具体应急措施?

    微软已紧急隔离北美和亚洲的12个存储节点,对2019-2023年训练日志进行数字指纹比对,并向执法部门提交涉及50TB非法访问数据的证据。技术团队正在部署量子密钥分发的动态验证机制。

    其他企业如何防范类似数据泄露风险?

    对2018-2024年大模型训练数据实施全量加密,将参数服务器访问权限升级为五级认证,并通过动态攻击测试验证系统安全性。同时需定期核查2000-2025年间的API接口加密状态。

    Copyrights:AICAT Posted on 2025-04-27 12:02:27。
    Please specify source if reproduced大模型训练数据遭外泄!微软紧急曝安全漏洞未修补:恐波及千亿参数项目 | AI工具导航
    广告也精彩

    No comments

    No comments...