东南亚科技企业Grab近日宣布,其自主研发的视觉大型语言模型在文档处理领域取得突破性进展。这款专为东南亚多语言环境设计的模型,成功解决了传统技术处理非拉丁字母文档的难题,在身份证、驾照等关键证件识别任务中展现出显著优势。
作为覆盖新加坡、马来西亚、印尼等八个国家的超级应用平台,Grab每日需处理海量多语言文档。工程团队发现,现有商业模型在解析东南亚语言时普遍存在两大缺陷:一是字符识别错误率居高不下,二是图像处理延迟严重。即便开源视觉模型在效率上表现优异,但面对复杂文档模板时仍难以保证准确性,这给客户身份验证等合规工作带来巨大挑战。
研发团队经过技术评估,最终选定阿里巴巴云的Qwen2-VL2B模型作为基础架构。该模型具备三大核心优势:支持东南亚多语言处理、可动态适配不同分辨率图像,且模型体积适中便于部署。为构建专属训练数据集,工程师们从Common Crawl开源库中筛选东南亚语言内容,同时开发内部合成系统,生成包含多样化字体和背景的文本图像样本。
在模型优化阶段,团队采用分阶段微调策略。初期通过低秩适配技术快速验证印尼文档的处理效果,当发现泰语、越南语等语言存在特殊视觉模式后,立即启动全参数微调。经过数轮迭代训练,最终诞生的轻量化模型不仅在字符识别准确率上超越主流OCR工具,其图像处理速度更较通用模型提升40%。
这项技术突破已产生实质性应用价值。在马来西亚驾照识别场景中,新模型将错误率从18%降至3.2%;越南身份证信息提取的完整率提升至97%,较传统方案提高23个百分点。Grab工程负责人表示,通过精准筛选高质量训练数据,小型专业模型完全能够实现效率与效果的双重突破。
目前,该模型已集成至Grab核心业务系统,支持打车、外卖、金融等场景的实时文档验证。研发团队正着手扩展模型能力边界,计划开发支持手写体识别、多语言混合文档解析等高级功能,以应对东南亚市场日益复杂的数字化需求。




