ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

AI聊天机器人总结能力堪忧,七成关键信息易遗漏!

时间:2025-05-19 10:07:06来源:ITBEAR编辑:快讯团队

近期,人工智能领域的快速发展引发了广泛关注,众多初创企业纷纷声称其AI产品能够革新工作方式和知识获取途径。然而,一项刊登在《皇家学会》期刊上的最新研究却向这一乐观趋势泼了一盆冷水,揭示了新一代AI模型在文本总结方面存在严重缺陷,引发业界担忧。

该研究对市面上十款主流的语言模型(LLM)进行了深入剖析,涉及近五千份科学研究总结的样本,其中包括ChatGPT-4o、ChatGPT-4.5、DeepSeek以及LLaMA3.370B等知名聊天机器人。研究结果显示,这些AI模型在提供信息时,有高达73%的概率会忽略掉关键信息,这一错误率远高于人类撰写科学摘要时的表现,甚至是人类的五倍之多。

研究团队强调,LLM在总结科学文本时,往往会遗漏那些限制研究结论范围的重要细节,从而导致对原始研究成果的过度解读。更令人不安的是,随着聊天机器人的不断迭代升级,其错误率并未如行业巨头所承诺的那样呈现下降趋势,反而呈现出上升趋势。以ChatGPT为例,在2023年至2025年间,美国青少年对其使用率从13%攀升至26%,但在此期间,旧版ChatGPT-4Turbo遗漏关键细节的概率已是原版的2.6倍,而新版ChatGPT-4o更是高达9倍。同样,meta的LLaMA3.370B新版本相较于旧版,其过度概括的概率也激增了36.4倍。

将大量数据精炼为简洁明了的几句话,对于人类而言或许并不困难,因为我们可以凭借丰富的经验和直观感受来提炼信息。但对于AI模型而言,这却是一项极为复杂的任务。特别是在临床医疗等领域,细节决定成败,任何微小的遗漏都可能带来无法挽回的后果。因此,将LLM广泛应用于各行各业,特别是医疗和工程领域,无疑面临着巨大的风险和挑战。

尽管研究也指出,给予LLM的提示会对其回答产生显著影响,但这一因素是否同样适用于科学论文的总结,目前仍不得而知,这为未来的研究提供了新的方向。然而,在AI开发者有效解决这些问题之前,人们或许还需要继续依赖人类撰写的内容来准确概括科学报告。

更多热门内容
OpenAI携手G42,拟在阿布扎比沙漠打造超摩纳哥规模AI数据中心
据报道,OpenAI正计划与阿联酋首都阿布扎比的科技公司G42展开一项规模空前的合作计划:在沙漠中建设一个耗电达5千兆瓦的10平方英里数据中心园区。这一规模若实现,将成为全球最大AI基础设施之一。OpenAI…

2025-05-19

斯宾塞谈AI新趋势:开源模型涌现,中美差距正急剧缩减
2001年诺贝尔经济学奖得主迈克尔·斯宾塞在近日举行的2025清华五道口全球金融论坛上表示,今年AI的发展有两方面引人关注。开源的AI模型越来越多,尤其是DeepSeek横空出世以及其他的一些中国大模型。中美…

2025-05-19