LLM Attacks：新算法构建针对大型语言模型的对抗攻击-人工智能-ITBear科技资讯

【ITBEAR科技资讯】8月7日消息，近日，卡内基梅隆大学(CMU)的研究人员发表了一项名为LLM Attacks的研究成果，引起了广泛关注。该研究提出了一种全新的算法，用于构建针对各种大型语言模型(LLM)的对抗攻击，包括ChatGPT、Claude和Bard等。通过这种算法，攻击者可以自动生成一系列提示后缀，绕过LLM的安全机制，并导致LLM输出有害的响应。

据ITBEAR科技资讯了解，与传统的“越狱”攻击不同，CMU团队设计的LLM Attacks算法采用了一个三步过程，自动创建有害提示后缀。首先，攻击者需要创建一个目标令牌序列，类似于“Sure， here is (content of query)”，其中“content of query”是用户实际的提示，要求有害响应。接下来，算法使用贪婪坐标梯度(GCG)方法，生成能导致LLM输出目标序列的提示后缀，尽管这确实需要访问LLM。

该研究还通过基准测试AdvBench评估了LLM Attacks算法的有效性。在这个基准测试上，LLM Attacks对名为Vicuna的LLM的成功率达到了惊人的88%，而基线对抗算法的成功率却仅为25%。这表明新的LLM Attacks算法具有更高的攻击成功率，可能对LLM提供商构成潜在威胁。

值得担忧的是，这种对抗攻击是否能被LLM提供商完全修复仍然是一个悬念。类似的对抗攻击在计算机视觉领域已经被证明是一个难以解决的问题，可能与深度学习模型的本质相关。随着ChatGPT和GPT-4等模型的发布，越来越多的针对这些模型的越狱技术也会出现，其中一些技术可以绕过模型的安全措施，并输出有害响应。这对于广泛应用和依赖这些强大AI模型的现代社会来说，无疑是一个需要引起重视的问题。

总的来说，卡内基梅隆大学的研究团队提出的LLM Attacks算法为针对大型语言模型的对抗攻击提供了一种新的、更高效的方法。然而，其对LLM安全性带来的挑战也需要得到深入研究和重视。随着技术的不断发展，保障AI模型的安全性将成为AI领域亟待解决的重要问题。

OpenAI携手G42，拟在阿布扎比沙漠打造超摩纳哥规模AI数据中心

据报道，OpenAI正计划与阿联酋首都阿布扎比的科技公司G42展开一项规模空前的合作计划：在沙漠中建设一个耗电达5千兆瓦的10平方英里数据中心园区。这一规模若实现，将成为全球最大AI基础设施之一。OpenAI…

2025-05-19

斯宾塞谈AI新趋势：开源模型涌现，中美差距正急剧缩减

2001年诺贝尔经济学奖得主迈克尔·斯宾塞在近日举行的2025清华五道口全球金融论坛上表示，今年AI的发展有两方面引人关注。开源的AI模型越来越多，尤其是DeepSeek横空出世以及其他的一些中国大模型。中美…

2025-05-19

苹果AI战略陷困境，Siri升级难产背后的犹豫与分歧

2025-05-19

郑纬民院士：国产芯片生态构建，类CUDA系统成关键？
2025-05-18

罗永浩AI创业新动向：或将携手百度，共同探索AI领域？

5月18日晚间消息，新浪科技从知情人士处获悉，罗永浩的AI创业项目或与百度展开合作。近日，罗永浩现身百度办公区的消息也引发了小范围讨论。据了解，罗永浩自2022年创立细红线科技有限公司，原计划聚焦AR领域，…

2025-05-18

罗永浩AI创业新动向：或与百度携手共进？

2025-05-18

罗永浩现身百度杭州？疑似携手AI领域展开新合作
2025-05-18