开源大语言模型脱离限制运行隐患大黑客或借此操控生成有害内容-业界动态-ITBear科技资讯

一项由两家网络安全公司联合开展的研究显示，开源大语言模型若脱离主流平台的安全约束，在外部设备上独立运行，可能成为网络犯罪的新工具。攻击者可通过直接控制运行模型的服务器，绕过大型平台原有的防护机制，操纵模型生成恶意内容、实施诈骗或传播虚假信息。

该研究历时近十个月完成，重点分析了数千个公开部署的开源大语言模型实例。研究人员发现，这些模型中存在大量被篡改或移除安全限制的情况，涉及meta的Llama、谷歌DeepMind的Gemma等主流模型的衍生版本。尽管部分开源模型自带防护功能，但仍有数百个实例被明确解除限制，为非法活动提供了可能。

研究团队指出，开源大语言模型的变体数量庞大，互联网上可访问的运行实例中，相当一部分已脱离原始开发者的控制。这些模型可能被用于生成仇恨言论、暴力血腥内容、窃取个人数据，甚至在极端情况下涉及儿童性虐待材料的传播。网络安全专家将这种现象形容为“冰山效应”，即已发现的滥用行为可能只是冰山一角，更多潜在风险尚未被完全掌握。

研究人员特别关注了通过Ollama工具部署的开源模型实例。Ollama允许用户在本地上运行不同模型的自定义版本，但这一灵活性也为恶意操作提供了空间。在分析的案例中，约四分之一的模型允许外部读取系统提示词——这些指令直接决定模型的行为模式。其中，7.5%的提示词被判定可能支持有害行为，例如生成钓鱼邮件或虚假宣传内容。

全球人工智能治理领域的一位专家表示，开源模型发布后，责任应由整个生态系统共同承担，包括原始开发团队。她指出，实验室难以对所有可能的滥用行为负责，但仍需履行“注意义务”，包括预判可预见风险、记录潜在危害，并提供相应的防护工具和操作指南。这一观点在执法能力参差不齐的全球背景下显得尤为重要。

网络安全公司SentinelOne的情报主管强调，行业对安全控制的讨论往往聚焦于已知风险，却忽视了开源算力被滥用的“剩余能力”。他比喻称，开源模型的犯罪用途如同一座未被充分关注的冰山，其规模和影响可能远超当前认知。随着这类模型在互联网上的广泛部署，如何平衡创新与安全已成为亟待解决的挑战。

开源大语言模型脱离限制运行隐患大 黑客或借此操控生成有害内容

开源大语言模型脱离限制运行隐患大黑客或借此操控生成有害内容