ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

小红书发布首个自研多模态大模型dots.vlm1,性能接近顶尖水平

时间:2025-08-08 02:03:34来源:ITBEAR编辑:快讯团队

在科技日新月异的今天,小红书再次展示了其在人工智能领域的雄心壮志。这家以内容分享闻名的平台,近期连续推出了三款自研模型,其中最新亮相的多模态大模型dots.vlm1尤为引人注目。

dots.vlm1基于小红书人文智能实验室(Humane Intelligence Lab,简称hi lab)自主研发的视觉编码器构建,其能力覆盖了从视觉理解到文本生成的多个领域。在实测中,dots.vlm1不仅成功“看穿”了色盲图,还解决了数独问题,甚至能够解答高考数学题,并模仿李白的诗风创作诗歌,其视觉理解和推理能力已接近行业领先的Gemini 2.5 Pro闭源模型。

在当前的AI圈,各大巨头纷纷推出自己的开源模型,竞争异常激烈。OpenAI发布了Claude的4.1版本,谷歌则推出了用于生成游戏世界的Genie 3,引发了广泛讨论。而在国产模型方面,HuggingFace平台上排名前十的开源模型中,国内模型占据了多数席位,显示了国产AI技术的崛起。

然而,仔细观察这些排名靠前的开源模型,不难发现一个现象:它们大多是文本模型,缺乏多模态能力。而小红书的dots.vlm1,正是在这一背景下脱颖而出的多模态大模型,为VLM(视觉语言模型)领域带来了新的活力。

小红书hi lab由内部大模型技术与应用产品团队升级而来,其研发重点放在了多元智能形态上,旨在通过融合人际智能、空间智能、音乐智能等多种智能形态,拓展人机交互的可能性。dots.vlm1正是这一理念的产物,它基于12亿参数的NaViT视觉编码器和DeepSeek V3大语言模型构建,在视觉理解和推理任务上表现出色,同时在纯文本任务中也保持了竞争力。

在视觉评测集上,dots.vlm1的整体表现已接近Gemini 2.5 Pro与Seed-VL1.5 Thinking等领先模型,显示出强大的图文理解与推理能力。在文本推理任务上,dots.vlm1的表现也相当出色,尽管在数学和代码能力上已具备通用性,但在更多样化的推理任务上仍有提升空间。

dots.vlm1的实测表现令人惊艳。在空间理解方面,它能够准确定义复杂图表中物体的空间关系;在数独问题上,dots.vlm1能够完美解题,其推理过程甚至出现了类似DeepSeek的“啊哈时刻”,显示了模型真正的思考和推理能力。dots.vlm1还能解决红绿色盲数字问题、进行数学计算、回答冷门问题以及进行行测等任务,展现了其广泛的应用潜力。

除了强大的功能外,dots.vlm1的技术架构也值得一提。它由三个核心组件构成:全自研的NaViT视觉编码器、轻量级的MLP适配器以及DeepSeek V3 MoE大语言模型。这一架构通过三阶段流程进行训练,包括视觉编码器预训练、VLM预训练和VLM后训练,确保了模型的性能和泛化能力。

NaViT视觉编码器是dots.vlm1的一大亮点。它完全从零开始训练,原生支持动态分辨率和高分辨率输入,为模型提供了强大的视觉感知能力。在训练过程中,NaViT编码器采用了双重监督策略,包括下一Token预测和下一Patch生成,进一步增强了模型的空间与语义感知能力。

对于为何小红书要自研多模态大模型,答案或许在于多模态AI的重要性。多模态AI模拟了人类利用多种感官综合感知世界的方式,能够形成更全面、细致的理解。在自动驾驶、具身智能等领域,VLM作为机器人的眼睛甚至大脑,发挥着至关重要的作用。因此,小红书自研多模态大模型不仅是为了提升平台的内容理解和推荐能力,更是为了在未来的人机交互中占据先机。

小红书在AI领域的投入远不止于此。除了dots.vlm1外,hi lab还推出了dots.llm1和dots.ocr等模型,形成了dots模型家族。这些模型不仅在技术上有所突破,更体现了小红书对于多元智能的追求和探索。未来,随着技术的不断进步和应用场景的不断拓展,我们有理由相信小红书将在AI领域取得更多令人瞩目的成就。

更多热门内容