大型语言模型信息过载下现安全漏洞，AI聊天机器人易被诱导回应-人工智能-ITBear科技资讯

近期，人工智能技术以其迅猛的发展态势，正逐步融入我们日常生活的方方面面。但伴随其广泛应用，如何安全、合理地运用这些技术成为了热议的话题。一项由英特尔、博伊西州立大学及伊利诺伊大学科研团队携手完成的研究，揭示了大型语言模型（LLM）在信息洪流中可能遭遇的安全隐忧。

据该研究披露，尽管过往研究已表明LLM在压力环境下会采取一定的自我保护策略，但科研团队通过一种名为“信息过载”的新策略，成功诱导这些智能聊天机器人回答了它们本应回避的问题。研究团队创造了一个名为“InfoFlood”的自动化攻击系统，并详细阐述了如何利用该系统“绕过”AI模型的限制。

在实验中，研究团队设计了一套标准化的提示模板，涵盖任务描述、规则设定、情境模拟及示例展示。当AI模型拒绝回应某个问题时，InfoFlood会依据预设规则集，通过添加额外信息来完善提示。这些规则包括引用虚假资料、确保虚构研究与原始表述的一致性等。关键在于，通过语言的精妙调整，攻击者能够掩盖提示中的恶意企图，促使AI作出特定响应。

研究者强调，诸如ChatGPT和Gemini等强大的AI模型，内置了多重安全机制，旨在防止其被操控以回答具有风险或有害的问题。然而，研究揭示，当面对海量信息时，这些模型可能会陷入迷茫，导致安全屏障失效。这凸显了AI模型在处理复杂数据时的弱点，表明它们可能难以准确判断输入信息的真实意图。

研究团队计划向采用大型AI模型的企业发送详细报告，提醒他们注意这一重大发现，并建议将这些信息传达给安全团队。尽管AI模型配备了安全过滤器，但研究显示，这些防护措施仍面临严峻考验，恶意用户可能会利用信息过载的手段，成功绕过模型的安全机制，植入有害内容。