近日,AI领域迎来了一股新的热潮,焦点集中在一家名为Deepseek的企业及其最新发布的模型DeepSeek-V3上。12月26日,Deepseek宣布其全新系列模型DeepSeek-V3的首个版本正式上线,并同步开放源代码。
据官方介绍,DeepSeek-V3在多项评测中取得了优异成绩,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并且在性能上与顶尖闭源模型GPT-4o以及Claude-3.5-Sonnet不相上下。更引人注目的是,官方技术论文透露,v3模型的总训练成本仅为557.6万美元,远低于GPT-4o等模型的约1亿美元。
这一消息迅速引发了广泛关注,Deepseek的名字开始在各大媒体平台上刷屏。紧接着,12月27日,又有媒体报道称,被称为95后“天才少女”的罗福莉将加入小米公司,而这位天才少女同样来自Deepseek。
据报道,雷军为了挖角这位天才少女,不惜开出千万年薪,这一消息同样引发了热议。不过,事实上,早在12月20日就有媒体提到过DeepSeek的罗福莉将加入小米的消息,但当时并未引起广泛关注。
DeepSeek-V3发布后,收获了大量好评。一方面,它在多个评测中取得了高分;另一方面,其低廉的训练成本也让人印象深刻。不少业界大佬对DeepSeek-V3给予了高度评价,如meta科学家田渊栋称其为“黑科技”,Menlo Venture的投资人更是将53页的技术论文誉为“黄金”。
然而,DeepSeek-V3也并非完美无缺。有用户发现,当用英文询问“what model are you”时,DeepSeek-V3错误地回答自己是ChatGPT。尽管在中文环境下或加上问号后能够正确回答,但这一小插曲还是引发了一些讨论。不过,据最新测试显示,该问题已经得到修复。
除了这一小插曲外,DeepSeek-V3在回答一些复杂问题时也表现出了不错的实力。例如,在回答关于兔子和鸡的数量问题时,它先通过设方程解出非整数解,然后指出题目可能存在矛盾;在回答9.11和9.9哪个数字大时,给出了正确答案;在回答蒸包子的时间问题时,也正确理解了可以同时蒸多个包子的概念。
而关于罗福莉的加入,尽管小米方面尚未正式回应,但她的背景已经引起了广泛关注。据悉,罗福莉本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所。在研二时,她就在自然语言处理领域顶级会议ACL上发表了8篇论文,其中两篇为一作。毕业后,她加入阿里达摩院机器智能实验室,主导开发了多语言预训练模型VECO。
罗福莉的保研经历也颇具传奇色彩。她原本并非计算机专业,而是电子专业。在一次偶然的机会下,她转到了计算机专业。尽管第一年对编程毫无认知,但她通过不断努力,最终取得了优异的成绩。她曾表示,自己并非特别聪明,但愿意付出足够的努力。
此次罗福莉被冠以“天才少女”的称号,并与小米和Deepseek紧密联系在一起,无疑让她的名字更加响亮。不过,也有网友指出,所谓的8篇ACL论文中,有6篇她只是部分参与。无论如何,罗福莉的加入无疑为小米和Deepseek注入了新的活力。