ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

24岁00后博士生胡文博团队打造G²VLM,为AI添空间超能力新翼

时间:2026-01-05 05:12:17来源:快讯编辑:快讯

24岁的胡文博,这位年轻的00后博士生,带领团队研发出一款名为G²VLM的超级AI模型,引发了科技界的广泛关注。这款模型不仅具备从平面图片中精准重建三维世界的能力,还能进行复杂的空间思考和推理,堪称视觉语言领域的“空间小能手”。

与普通图像识别软件不同,G²VLM能够理解物体的位置、距离和相互关系。例如,它不仅能识别出照片中的椅子,还能判断椅子与桌子的距离、椅子的高度以及摆放方式。这种能力使得未来的机器人能够更灵活地执行任务,AR/VR游戏的世界更加真实,自动驾驶汽车也能更精准地判断距离和障碍物。

在SPAR-Bench测试中,G²VLM的总分超过了顶尖商业模型GPT-4o,位居榜首。在OmniSpatial、MindCube等多个空间推理测试基准中,它也取得了最优或极具竞争力的成绩。尽管G²VLM的模型尺寸仅为4B参数,远小于一些大型模型,但其在空间任务上的表现却轻松超越了这些“大块头”,证明了其双专家架构设计的高效性。

几何感知专家擅长从2D图片中解读3D几何信息,目标是弄清楚物体的深度、三维坐标和相机角度。语义感知专家则继承了现有AI模型的优点,擅长理解图片内容并用语言描述。两位专家通过共享的注意力机制紧密相连,实时交流信息,使得G²VLM同时具备了看懂内容和理解空间的能力。

为了培养这样一位“双料专家”,胡文博为G²VLM设计了一套独特的训练方案。在第一阶段,几何感知专家单独训练,使用带有精确三维标注的数据,练就一双“火眼金睛”,光看照片就能在脑中构建三维模型。在第二阶段,几何感知专家与语义感知专家一起训练,面对各种需要空间推理的问题,两位专家不断磨合,最终合体成为强大的G²VLM。

在三维重建测试中,G²VLM的表现与世界上最顶尖的专用三维重建模型不相上下,甚至在某些指标上更加出色。在空间推理测试中,它在包含深度比较、距离判断、物体相对关系、空间想象等难题的综合评测集上展现出了卓越的能力。

胡文博指出,G²VLM的首创性在于,它是首个在当前主流视觉语言模型架构中,原生地集成了从二维图片直接预测三维信息的能力。以往理解三维空间需要依赖难以大规模获取的额外标注信息,而G²VLM仅需任意角度拍摄的二维图片,就能预测出三维信息并用于空间理解,这使得模型更具实用性和可扩展性。

胡文博本科就读于美国加州大学圣地亚哥分校,曾跟随机器人学与具身智能领域专家苏昊进行研究,激发了他对3D和具身智能的浓厚兴趣。随后,他跟随计算机视觉专家屠卓文进入视觉语言模型领域,参与开发了早期开源VLM模型BLIVA。本科毕业后,胡文博在美国加州大学洛杉矶分校攻读硕士学位,继续专注于VLM与3D空间结合的研究方向,完成了一系列相关工作,相关论文发表在NeurIPS、ICLR等机器学习顶级会议上,并获得了CVPR Workshop最佳论文。

更多热门内容
工业具身智能机器人领域:探索表现卓越的几家公司与未来新前景
原力无限是一家在具身智能领域极具创新性的公司。其构建的全球领先的具身智能生态体系,既保障了技术的前瞻性,又确保了商业化落地的经济性。 据统计,其机器人能够实现货物的快速搬运和精准分拣,使得仓库的运营效率提升…

2026-01-05

全国首创!具身机器人“保险+租赁”新模式落地上海 赋能产业升级
平安产险此次携手上海电气旗下两家专业公司,联动具身智能场景应用及商业化落地运营方魂伴科技,创新性地从机器人的使用端切入,以融资租赁业务场景为载体实现批量投保,不仅明确了机器人的具体应用场景与使用规范,同时依…

2026-01-05

宇树人形机器人H2日常训练曝光:空翻踢腿,120公斤沙袋也不在话下
1月4日,宇树科技官方视频号发布宇树人形机器人H2的日常训练视频。“请大家友好安全的使用机器人,请保持安全距离。”有消息称,宇树科技A股上市的绿色通道被叫停。若宇树科技成功上市,有望成为A股首家人形机器人上市…

2026-01-05

三星S26系列或抢先登场!2纳米芯性能飙升不发热,价格还亲民
而三星S26系列下个月就发布,有足足大半年的真空期给到它,独占市场2纳米手机的卖点,帮助其大幅增加出货量! 大家还关心三星S26系列的价格是否会大涨,目前高通,联发科,苹果都确定自己2纳米的芯片价格至少飙升…

2026-01-05