近日,科技新闻界迎来了一项引人注目的技术进展。据WinBuzzer报道,Ollama,这一开源大语言模型服务工具,已经成功推出了其自主研发的多模态AI定制引擎。这一创新之举标志着Ollama在技术上迈出了重要一步,实现了对llama.cpp框架的直接依赖的摆脱。
近期,llama.cpp项目通过libmtmd库整合了全面的视觉支持功能,这一动态也引发了业界对Ollama与llama.cpp之间关系的广泛讨论。面对外界的猜测和疑问,Ollama团队成员在Hacker News上及时进行了澄清。他们强调,Ollama的多模态AI定制引擎是基于golang独立开发的,并未直接借鉴llama.cpp的C++实现。同时,他们还表达了对社区反馈的感激之情,并表示这些反馈对于技术的改进和提升起到了重要作用。
在官方声明中,Ollama进一步阐述了推出新引擎的背景和动机。随着meta的Llama 4、Google的Gemma 3、阿里巴巴的Qwen 2.5 VL以及Mistral Small 3.1等AI模型的复杂性不断增加,现有的技术架构已经难以满足日益增长的需求。因此,Ollama决定推出全新的多模态AI定制引擎,以应对这些挑战。
新引擎在本地推理精度上实现了重大突破,特别是在处理大图像生成大量token时表现出色。为了实现这一目标,Ollama引入了图像处理附加元数据,优化了批量处理和位置数据管理,从而避免了图像分割错误导致的输出质量下降。新引擎还采用了KVCache优化技术,显著加速了transformer模型的推理速度。
在内存管理方面,新引擎同样进行了大幅优化,并新增了图像缓存功能。这一功能确保了图像处理后的数据可以被重复使用,避免了数据的提前丢弃。同时,Ollama还与NVIDIA、AMD、Qualcomm、Intel和Microsoft等硬件巨头展开了合作,通过精准检测硬件元数据,进一步优化了内存估算和分配。
针对meta的Llama 4 Scout等复杂模型,新引擎还支持了分块注意力(chunked attention)和2D旋转嵌入(2D rotary embedding)等先进技术。这些技术的引入,使得Ollama的多模态AI定制引擎在处理复杂模型时更加高效和准确。