ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek识图模式全面开启:能辨文物却难识老板,多模态待揭秘

时间:2026-06-19 00:32:44来源:互联网编辑:快讯

DeepSeek近日正式面向全体用户开放了图像识别功能,手机端应用同步完成更新,用户打开应用即可体验这一新特性。此前,该功能处于小范围灰度测试阶段,仅部分用户能够使用,如今已全面上线。

有用户上传了黄仁勋在北京小吃街喝豆汁的照片进行测试。结果显示,DeepSeek能识别出图中人物是黄仁勋,但忽略了瓶身上的“豆汁”字样,将其误判为牛奶,对人物表情的解读也不够精准。当切换到深度思考模式后,尽管DeepSeek依旧未能识别出瓶身上的“尹三豆汁”字样,不过凭借推理能力和已有的知识储备,推断出饮品为豆汁,不过表情解读方面仍未有明显改善。

社交媒体上,不少网友对人物识别功能进行了测试,效果不尽如人意。像何同学等知名人物均出现识别错误的情况,就连DeepSeek团队负责人梁文锋本人也未被准确识别。从其思考过程来看,识别人物主要依靠视觉线索,如面部特征、发型等,与人物的公众形象进行比对,由于像黄仁勋这样特征独特的人物较少,所以准确率不高也在情理之中。

在安全限制方面,DeepSeek表现得较为严格。有用户尝试上传雷军近期的热门图片,却收到“可能违反使用规范”的提示。

对于潦草汉字的识别,DeepSeek也存在不足。测试图片中的汉字有横线干扰、笔画粘连以及错别字干扰等情况,结果7个字中识别错了4个。这表明该模型在真实场景手写文本识别、领域词汇约束和语义纠错等方面还有待提升。

不过,DeepSeek在文物识别方面表现出色。在测试中,虽然未能成功找到文物的出处,但准确判断出其属于莫卧儿帝国风格,并对其工艺进行了详细分析。

在寻找相同袜子的测试中,给定一张包含多双袜子的图片,要求找出完全相同的袜子,正确答案是第一行第三个和第三行第二个,但DeepSeek未能给出正确答案。

在钢琴和弦识别测试中,上传一张钢琴弹奏实拍图并询问“弹的是什么和弦”。根据钢琴黑键按“两黑 + 三黑”组规律排列,两黑键中间的白键永远是D音,可推断出相邻的C和E等音高,正确答案应为ACE,但DeepSeek判断错误。同时测试的Gemini 3.5 flash、GPT 5.5和Claude Sonnet 4.6也均未答对,Claude Sonnet 4.6甚至直接罢工,这显示出这些大模型在音乐理推理能力上存在局限。

随着图像识别功能的全面发布,开发者们产生了诸多疑问,例如该功能与DeepSeek 4.1有无关联、背后技术是否采用原生多模态、多模态的API何时上线等。这些问题出现在DeepSeek多模态团队研究者Xiaokang Chen的X贴文评论区,但他并未作出回应。或许后续DeepSeek会发布相关技术文档,为大家解答疑惑。

更多热门内容
谷歌深度思维核心成员沙泽尔转投OpenAI 聚焦AI大模型新架构探索
沙泽尔曾在 2021 年从谷歌离职,联合创立聊天机器人初创公司 Character.AI;2024 年,谷歌以 27 亿美元收购这家 AI 初创企业,沙泽尔也随之重返谷歌深度思维人工智能团队。此后他担任谷歌…

2026-06-18

Transformer核心奠基人Noam Shazeer再出发,加盟OpenAI引领下一代AI架构革新
换句话说,谷歌这两年的翻身仗,他是头号功臣之一。 他在Transformer、MoE和高效解码上的工作,塑造了现代AI。 Transformer只是第一步,从AGI到ASI那条路上的地基,是他一遍遍重新发明…

2026-06-18

Claude Design大更新:打破壁垒,让设计与编程实现无缝对接与融合
两条新命令/design-sync和/design,打通了Claude Design和Claude Code的双向通道。 你看看背后站着的是谁——Google、Anthropic、OpenAI,三家正在冲…

2026-06-18

Transformer奠基人Noam Shazeer再离谷歌,投身OpenAI探寻AI新架构未来
对Google来说,Shazeer的离开当然是损失——这个损失并不只是少了一位Gemini联合负责人,还指向GoogleAI史里那个反复出现的问题:它常常很早看到未来,却未必能最快把未来推到用户面前。 O…

2026-06-18