全球人工智能领域近期迎来了一场震撼性变革,由中国AI企业深度求索(DeepSeek)推出的开源大模型DeepSeek-R1迅速走红,引发了行业内外的广泛讨论:全民AI时代是否已经悄然临近?
长久以来,以OpenAI为首的美国企业在人工智能大模型领域引领风潮,他们凭借充足的芯片和算力资源,秉持“越大越好”的理念,通过增强算力和数据规模来训练更大的模型,以期获得卓越性能。然而,这种策略导致大模型能耗巨大,训练成本高昂,给商业推广带来了难题:大模型投入不起,小模型则难以满足需求。
DeepSeek的出现打破了这一僵局。他们通过深度优化模型架构和训练过程,在显著降低计算资源消耗的同时,跻身全球顶级AI大模型之列,实现了低成本与高性能的完美结合。尤为与OpenAI的闭源策略不同,DeepSeek选择免费开源其大模型,并公开全部技术路线,极大地推动了大模型技术从昂贵“奢侈品”向普及“日用品”的转变。
从技术进步的角度来看,DeepSeek的开源大模型为竞争开辟了新赛道,让AI的未来更加可期。低成本是技术普及的关键,正如小汽车、个人电脑和手机的普及历程所示,人工智能产业的普及同样离不开这一点。近年来,业界已为大模型成本的降低付出了诸多努力,而DeepSeek模型无疑是其中的佼佼者,证明了低成本之路的可行性。
然而,大模型的降价之路远未走到尽头。DeepSeek的成功并非终点,而是降本增效道路上的一个新起点。他们开源代码、开放API及训练方法,吸引了全球开发者的积极参与,推动了技术的快速迭代。自1月20日R1推出以来,各国AI技术人员纷纷掀起“DeepSeek复现热潮”,甚至有美国科研团队声称仅用少量资金租用云计算资源便成功复现了模型。
DeepSeek采用专家混合架构MoE实现了更高的成本效益。而近期,字节跳动豆包大模型团队也推出了全新的稀疏模型架构UltraMem,该架构优化了推理性能,使得推理速度较MoE架构有了显著提升,推理成本也大幅降低。
从商业应用的角度来看,DeepSeek正在重塑AI生态链,大模型展现出巨大的商业潜力。美国的一些AI龙头企业一方面夸大开源AI的安全风险,试图通过监管手段抑制开源AI的发展;另一方面,他们却投入巨资抬高大模型的准入门槛,形成了“金字塔”式的生态格局,科技巨头垄断大模型,中小企业则只能依赖API。
然而,开源模型对于全球AI供应链至关重要,尤其是对于广大发展中国家而言,他们迫切需要开源AI技术。开源模型使得每个开发者都能轻松调用强大的AI工具,不再受制于大公司,从而显著提升了AI的进化速度和普及程度。近期,众多上市公司纷纷接入DeepSeek模型,这一热潮充分体现了市场对于低成本、高性能开源大模型的迫切需求。随着各行各业的开发者在开源框架上开发各类应用,如文本创作、智能客服、医学影像诊断等,一个新的生态系统正在悄然形成。