在近期于厦门举办的FORCE Link AI创新巡展活动中,火山引擎宣布了一系列AI技术的新进展,其中包括豆包系列模型的升级及AI云原生服务的全面优化。此次发布不仅涵盖了豆包·图像编辑模型3.0、同声传译模型2.0,还推出了豆包大模型1.6系列,以及多项针对企业及开发者的实用工具。
火山引擎针对AI图像编辑领域中的诸多挑战,推出了豆包·图像编辑模型3.0(SeedEdit 3.0)。该版本在指令理解、图像内容保持及生成质量上实现了显著提升,用户只需通过自然语言指令,即可完成复杂的图像编辑任务,如消除冗余元素、调整光影效果、替换图像元素等,还能尝试风格转换、材质变换及姿势调整等创意性操作。这一模型在影像创作、广告营销等多个领域具有广泛应用前景,企业用户可通过火山方舟平台调用其API接口,个人用户则能在即梦或豆包应用中体验这些功能。
火山引擎还发布了豆包·同声传译模型2.0(Seed-LiveInterpret 2.0),该模型打破了传统级联模型的局限,采用全双工框架,将语音延迟大幅缩短至2-3秒,实现了文本与语音的同步生成。该模型支持0样本声音复刻,无需提前录制,即可实时生成与源语言相同音色的外语语音,甚至能匹配方言口音,极大地增强了跨语言沟通的沉浸感。
豆包大模型1.6系列同样迎来了重要升级。极速版Doubao-Seed-1.6-flash模型在保持强大视觉理解能力的基础上,增强了代码处理、逻辑推理及数学运算等能力,使其更加适用于智能巡检、手机助手等大规模商业化场景。该模型在性能上表现出色,首Token输出时间低至10ms,同时在成本控制方面也具有显著优势,在0-32k文本长度区间内,每百万tokens的输入成本仅为0.15元,输出成本为1.5元。在实际应用案例中,该模型帮助企业实现了60%的延迟降低和70%的成本节省。
火山引擎还推出了全模态向量化模型Seed1.6-Embedding,该模型首次实现了“文本+图像+视频”的混合模态融合检索,为企业构建多模态知识库提供了有力支持。在权威测评中,该模型在多模态全面任务及中文文本处理方面均取得了优异成绩。
为了加速Agent的端到端开发与落地,火山引擎对AI云原生服务进行了全面优化。7月26日,火山引擎正式开源了AI Agent开发平台扣子的核心能力,包括一站式可视化开发工具“扣子开发平台(Coze Studio)”和全链路管理工具“扣子罗盘(Coze Loop)”。这些工具采用Apache 2.0许可证,用户可在GitHub上自由下载。开源后,这些工具迅速获得了广泛关注,其中Coze Studio的星标数在短短三天内就突破了一万。
针对有模型定制需求的企业,火山引擎依托火山方舟模型单元推出了自有模型托管方案。该方案使企业无需关注底层GPU资源的运维和复杂配置,即可实现自研模型的全托管,并享受弹性算力、自定义部署方式与时延控制等优势。该方案还采用了按需付费模式,避免了业务低谷期的资源浪费,目前已开放邀请测试。
火山方舟的API体系也得到了升级,推出了具有原生上下文管理能力的Responses API。该API支持多轮对话链式管理及多模态数据衔接,结合缓存能力可大幅降低使用成本。同时,它还支持单次请求联动多个工具和模型进行组合响应,从而将智能助手Agent的开发效率从原本的460行代码、1-2天缩短至60行代码、1小时。
此次发布标志着火山引擎在AI生态布局上迈出了重要一步,为企业和开发者提供了从基础模型到开发工具的全链条支持,将进一步推动AI技术在各行业的应用落地。