Ollama发布自主多模态AI引擎，本地推理性能大幅提升-业界动态-ITBear科技资讯

近日，科技新闻界迎来了一项引人注目的技术进展。据WinBuzzer报道，Ollama，这一开源大语言模型服务工具，已经成功推出了其自主研发的多模态AI定制引擎。这一创新之举标志着Ollama在技术上迈出了重要一步，实现了对llama.cpp框架的直接依赖的摆脱。

近期，llama.cpp项目通过libmtmd库整合了全面的视觉支持功能，这一动态也引发了业界对Ollama与llama.cpp之间关系的广泛讨论。面对外界的猜测和疑问，Ollama团队成员在Hacker News上及时进行了澄清。他们强调，Ollama的多模态AI定制引擎是基于golang独立开发的，并未直接借鉴llama.cpp的C++实现。同时，他们还表达了对社区反馈的感激之情，并表示这些反馈对于技术的改进和提升起到了重要作用。

在官方声明中，Ollama进一步阐述了推出新引擎的背景和动机。随着meta的Llama 4、Google的Gemma 3、阿里巴巴的Qwen 2.5 VL以及Mistral Small 3.1等AI模型的复杂性不断增加，现有的技术架构已经难以满足日益增长的需求。因此，Ollama决定推出全新的多模态AI定制引擎，以应对这些挑战。

新引擎在本地推理精度上实现了重大突破，特别是在处理大图像生成大量token时表现出色。为了实现这一目标，Ollama引入了图像处理附加元数据，优化了批量处理和位置数据管理，从而避免了图像分割错误导致的输出质量下降。新引擎还采用了KVCache优化技术，显著加速了transformer模型的推理速度。

在内存管理方面，新引擎同样进行了大幅优化，并新增了图像缓存功能。这一功能确保了图像处理后的数据可以被重复使用，避免了数据的提前丢弃。同时，Ollama还与NVIDIA、AMD、Qualcomm、Intel和Microsoft等硬件巨头展开了合作，通过精准检测硬件元数据，进一步优化了内存估算和分配。

针对meta的Llama 4 Scout等复杂模型，新引擎还支持了分块注意力（chunked attention）和2D旋转嵌入（2D rotary embedding）等先进技术。这些技术的引入，使得Ollama的多模态AI定制引擎在处理复杂模型时更加高效和准确。