IDEA大会发布DINO-X大模型，具身智能迎来新突破-智能汽车-ITBear科技资讯

【ITBEAR】在具身智能领域，环境感知与理解能力被视为其核心竞争力。特别是在Transformer架构问世后，视觉模型与其融合，经历了一场从“小模型到大型模型，从多任务到单一模型”的变革，显著提升了全场景视觉感知能力，为技术的实际应用开辟了更广阔的道路。

近日，IDEA研究院在深圳举办的2024 IDEA大会上，隆重发布了最新的DINO-X通用视觉大模型。该模型具备物体级别的理解能力，能够无需人工提示，实现对开放世界目标的自动检测。同时，IDEA研究院还推出了行业平台架构，通过大模型基座与通用识别技术的结合，使得模型能够在不重新训练的情况下，边使用边学习，满足多种应用需求。

IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在会上表示，当前具身智能正处于新一轮的落地浪潮中，技术路径更加注重泛化性和现实场景的适应性。为此，IDEA研究院宣布了三项重要合作：与腾讯合作，在深圳福田区及河套深港科技创新合作区建设福田实验室，专注于人居环境具身智能技术的研发；与美团携手，探索无人机视觉智能技术；与比亚迪合作，拓展工业化机器人的智能应用。

传统机器人在工厂制造、汽车生产车间、物流仓储等半结构化领域中已有所应用，但面对真实场景时，其认知能力仍有待提升。IDEA研究院计算机视觉与机器人研究中心负责人张磊指出，不同类型的机器人，如双臂机器人和移动机器人，在面对复杂环境时，需要更高的认知与决策能力。特别是移动机器人，在室外环境中，其面临的挑战与无人驾驶类似，需要应对结构化、半结构化甚至非结构化的道路环境。

AI大模型的引入，为机器人的认知和决策能力带来了显著提升。腾讯Robotics X实验室智能体中心负责人韩磊认为，语言是人类知识和思维的高度抽象，而机器人则是通过第一人称视角来感知世界，因此，视觉理解是机器人首要的任务。

在圆桌讨论《从视觉到行动：具身智能的挑战和机遇》中，与会专家一致认为，多模态信息的加入，结合物理世界的认知，可以显著增强机器人对世界的理解角度。这对于机器人的运动控制、环境适应以及任务执行等方面都具有重要意义。

美团副总裁兼无人机业务部负责人毛一年表示，机器人应用的首要场景应该是人类的高风险任务，如上山巡检、深海检测、油田钻井、高楼清洁等。通过从小场景切入，逐步扩大应用范围，可以逐渐提升用户对机器人的接受度和信任度。他强调，机器人的应用需要确保安全稳定，避免给用户带来不必要的麻烦或损失。

沈向洋院士在会上还指出，在技术大爆发的时期，对技术的深度理解尤为重要。深圳这座城市以其快速的迭代速度，不仅在硬件领域不断创新，也在软件领域取得了显著成果。IDEA研究院除了与福田实验室合作外，还与前海深港合作区、深圳龙岗区、横琴粤澳深度合作区等地建立了多个分支机构，共同推动技术创新和成果转化。

在初创生态方面，IDEA研究院还孵化了一批生态企业，如识渊科技、AI玩伴机器人爱小伴、GPU加速电影工业渲染器Smaray慧光追等，这些企业在各自的领域内取得了不俗的成绩，为IDEA研究院的创新生态增添了新的活力。