ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

吉利携手阶跃星辰,开源视频语音大模型,引领AI新风尚!

时间:2025-02-18 12:46:16来源:ITBEAR编辑:快讯团队

吉利汽车集团与其科技生态战略合作伙伴阶跃星辰(StepFun)近日携手宣布,向全球开发者正式开源两款多模态大模型——阶跃Step系列。即日起,开发者们可以在跃问APP中亲身体验这两款创新技术。

阶跃Step-Video-T2V,作为全球首个参数量突破300亿的开源视频生成模型,以其卓越的性能脱颖而出。它能够直接生成高质量视频,分辨率达到540p,每秒204帧,无论是复杂动态场景、美感人物塑造,还是镜头语言运用,均展现出强大的生成能力。其语义理解和指令遵循的精准度,更是令人印象深刻。

为了全面评估文生视频的质量,阶跃星辰还发布了Step-Video-T2V-eval基准数据集,涵盖128条真实用户评测问题,涉及11个内容类别。评测结果显示,阶跃Step-Video-T2V在指令遵循、运动平滑性、物理合理性及美感度等多个方面,均超越了当前市场上表现最佳的开源视频模型。

与此同时,阶跃Step-Audio作为行业内首款产品级开源语音交互大模型,其表现同样令人瞩目。该模型能够根据不同场景需求,生成富有情绪、方言、语种特色的语音,甚至包括歌声和个性化风格,实现与用户的高质量对话。其生成的语音不仅自然流畅,而且具备高情商特征,能够满足影视娱乐、社交、游戏等多个行业的应用需求。

在LlaMA Question、Web Questions等五大主流公开测试集中,阶跃Step-Audio的表现均位居榜首。特别是在HSK-6(汉语水平考试六级)评测中,其表现尤为突出,被誉为最懂中国话的开源语音交互大模型。阶跃星辰还自建了多维度评估体系Stepeval-Audio-360,从多个维度对开源语音模型进行评测,结果显示阶跃Step-Audio在各个维度上均超越了此前市场上的最佳开源语音模型。

阶跃星辰的成就不仅得到了业界的广泛认可,还吸引了Hugging Face联合创始人兼CEO Clement Delangue的关注。他对阶跃星辰的大模型给予了高度评价,认为其有望成为下一个DeepSeek级别的创新力量。

阶跃星辰自2023年4月成立以来,便致力于实现通用人工智能(AGI)的目标。其总部位于上海,由微软前全球副总裁姜大昕担任CEO。短短一年多时间内,阶跃星辰的多模态API调用量增长了超45倍,展现了其强大的技术实力和市场潜力。

更多热门内容