麦吉尔大学与Mila研究院创新分级语言模型：AI开放与安全共存新路径-人工智能-ITBear科技资讯

当人工智能模型走向开放，如何平衡技术共享与安全防护成为关键难题。传统方案往往陷入两难：要么彻底删除敏感内容发布“残缺版”，要么将完整模型锁在服务器通过严格权限控制使用。前者牺牲了科研效率，后者阻碍了本地化部署需求，更严峻的是，现有输入端加密防护可被轻易破解。麦吉尔大学与Mila人工智能研究院等机构提出的分级语言模型（TLMs），为破解这一困局提供了全新思路。

这项研究的核心创新在于将安全机制嵌入模型物理结构。传统密码锁如同在房屋门口加装锁具，攻击者可通过工具或观察破解；而TLMs的防护机制犹如重构房屋内部墙体布局，只有掌握具体换墙方案的人才能发现隐藏空间。具体实现上，模型通过交换5%的注意力头和前馈神经元位置实现能力分级，这些被交换的模块参数数值不变，仅改变计算图中的连接关系。对于1800万参数模型，其“钥匙”存储需求仅5.85KiB，较同等能力的LoRA适配器缩小560倍，在千亿参数模型中差距更达7000倍以上。

实现这种能力分离的关键在于独特的训练架构。研究团队设计了两阶段训练方案：非对称联合预训练阶段让模型同时学习公开与加密两种配置，其中5%的换位模块仅通过加密路径更新，确保公开配置学会绕过这些模块；带正则化的私有微调阶段则通过KL散度约束防止能力泄漏。实验数据显示，在西班牙语学习任务中，加密配置的西班牙语损失持续下降而英语损失稳定，公开配置则对西班牙语毫无感知；指令跟随任务中，加密配置胜率从50%跃升至85%，公开配置反而跌至15%；私有事实记忆任务更实现100%精确匹配率与0%泄漏率的极端分化。

面对潜在攻击，TLMs展现出强大防御能力。当攻击者使用200个已知私有传记进行“钓鱼”微调时，模型在剩余200个未知传记上的匹配率始终为0；部分钥匙破解实验显示，需猜中超过90%的换位方案才能获取有效信息，形成类似密码学的“断崖效应”；权重分析攻击虽能识别54%的换位模块，但无法破解具体配对关系。这些测试验证了防护机制的有效性，不过研究人员也承认，换位模块的权重分布差异仍构成潜在弱点，未来需通过改进正则化策略消除统计痕迹。

该框架的扩展性在多层级实验中得到验证。通过引入三把独立钥匙控制不同换位模块，模型成功实现德语、土耳其语、西班牙语的能力分层。每个层级配置在获得新语言能力的同时，保持了之前层级和公开配置的稳定性，英语损失波动控制在0.005自然单位以内。这种设计为构建企业级权限管理系统提供了技术基础，不同部门可通过组合使用多把钥匙获取相应层级的数据访问权。

尽管当前实验仅在1.8亿和6.5亿参数模型上验证，但研究团队坦言规模扩展存在挑战。更大模型中模块间的干扰模式可能发生变化，需要重新评估信息泄漏风险。钥匙管理、权限撤销等现实问题也超出论文研究范围。不过这项研究已证明，通过重构模型物理结构实现能力分级的技术路径切实可行，为开放权重模型的安全部署开辟了新方向。相关代码与论文已在arXiv平台公开，编号为2606.21638，科研人员可通过McGill-NLP项目页面获取完整技术细节。