在2024年末的科技舞台上,生成式人工智能领域再度掀起了波澜。短短数日之内,两大重量级突破相继问世,为岁末年初的科技界增添了浓厚的节日气氛。
先是李飞飞的Worlds Lab发布了令人瞩目的新模型,仅凭一张图片即可生成可互动的3D空间。紧接着,谷歌DeepMind也不甘示弱,推出了其最新一代的大规模基础世界模型——Genie 2,其表现更是青出于蓝而胜于蓝。
DeepMind在12月4日正式宣布了Genie 2的诞生。这款模型能够将一张普通的图像转化为一个充满互动性的3D游戏世界,用户通过鼠标和键盘即可在其中自由探索,持续时间甚至可达一分钟之久。
Genie 2的开发团队坚信,这一技术将为具身智能开启全新的可能性,推动AI生成虚拟世界迈向新的高度。可以预见,未来的游戏开发领域,尤其是开放世界的创作,或将迎来一场前所未有的技术革命。
在DeepMind发布的演示视频中,可以看到用户在生成的3D世界中尽情探索。有人滑雪滑到一半突然兴起,转而尝试跑酷;还有人手搓火球,尽管在碰撞时出现了些许穿模的小插曲。这些生动的场景,无不展示了Genie 2的强大功能。
DeepMind在游戏领域的深厚底蕴,为Genie 2的诞生奠定了坚实的基础。从早期的雅达利游戏研究,到围棋AlphaGo和《星际争霸2》AlphaStar等里程碑式的成就,游戏一直是DeepMind研究的核心。而Genie 2,则是这一传统精神的最新结晶。
与今年2月发布的第一代Genie相比,Genie 2在功能和性能上都实现了质的飞跃。它不仅能够生成720p分辨率的高质量3D世界,还支持用户在第一人称或第三人称视角下通过键盘和鼠标进行操控。更重要的是,Genie 2还能模拟重力、碰撞、水体运动等基础物理现象,以及复杂的光照、反射和烟雾效果,甚至能生成可以互动的NPC,让虚拟世界更加真实可信。
尤为Genie 2还具备出色的空间记忆能力。当用户在虚拟环境中移动时,即使某些区域暂时不在视野范围内,系统也能保持这些区域的一致性。这意味着当玩家重新访问之前的位置时,环境会保持原样,大大提升了用户体验的真实感和可信度。这一突破,无疑解决了早期3D空间生成器的局限性。
在实际应用中,Genie 2展现出了惊人的多样性和实用性。用户只需提供一张图片和一段文字描述,系统就能生成一个可交互的实时场景。这些场景最长可以持续一分钟,大多数能稳定运行10到20秒,供用户尽情探索。这一技术,无疑为游戏开发者提供了极大的便利和想象空间。
DeepMind还进行了一系列创新性的测试,将Genie 2与其SIMA AI智能体结合使用。在测试中,SIMA能够成功在Genie 2生成的房间中导航,并执行“打开蓝色的门”、“去有植物的地方”等自然语言指令。这一组合不仅展示了AI系统在数字和物理空间执行复杂任务的潜力,还为未来AI代理的训练提供了无限可能。
然而,随着技术的不断发展,一些争议和担忧也随之而来。由于DeepMind作为谷歌的子公司可以无限制地访问YouTube视频数据,这引发了知识产权方面的担忧。同时,生成的模拟场景与一些3A游戏场景颇为相似,也可能涉及未经授权复制游戏的法律问题。这些问题,都需要在技术继续发展的同时得到妥善解决。
对于游戏开发者而言,Genie 2既是一个巨大的机遇,也是一个严峻的挑战。它可以帮助开发者快速将概念草图或照片转化为具有完整物理和光照系统的3D空间,极大提升原型设计的效率。但同时,随着游戏公司逐渐拥抱AI以提高生产效率,也可能导致大量员工面临失业的风险。这一技术进步带来的就业市场变革,需要整个行业认真思考和应对。