在人工智能(AI)领域,一场别开生面的“资源错位战”正在悄然上演。在这场战役中,大型科技公司热衷于参数升级的“军备竞赛”,而中小型创业公司则另辟蹊径,深耕大型公司无暇或不愿涉足的细分赛道。医疗行业,以其高风险性、低容错率以及对准确性和严谨性的极高要求,成为了这场数字化攻坚战中的最难阵地。
近年来,全国各地的AI企业纷纷意识到了细分赛道的重要性,加大了对垂直领域行业大模型的投入力度。医疗行业对AI的需求尤为迫切,但通用大模型往往难以完全满足其独特需求。这一现状促使企业开始探索更加专业化的解决方案。
方舟健客技术高级副总裁郭陟形象地比喻了通用大模型与垂直大模型在医疗领域的应用。他认为,AI在医疗场景的落地应用,如同医学生成长为妇科专家的过程。通用大模型就像医学院培养的医学生,掌握了广泛的医学基础知识,但缺乏临床实战经验。而要成为一个真正的专家,则需要经过长年累月的临床实践和经验积累。
壹生检康,一家专注于女性精准健康检测的科技公司,正是这一理念的践行者。在女性健康领域深耕3年多后,他们积累了丰富的行业经验和庞大用户群体。然而,随着业务的发展,公司也面临着如何更好地服务用户的难题。通用大模型虽然能够提供一定程度的帮助,但在准确性和特定场景的控制上仍有不足。
在此背景下,开源DeepSeek的出现为行业和个人用户带来了对大模型概念的更深层次理解。它不仅推动了通用大模型厂商的快速迭代,还为垂直大模型低成本的技术实现提供了清晰的路径。壹生检康的团队在经过深入研究和对比后,决定自研妇科垂直大模型。
在基础模型的选择上,团队充分考虑了技术资源和算力的限制。他们对比了不同参数量的模型,最终选择了在计算资源和回复效果之间取得最佳平衡的32B参数量模型。同时,为了确保模型的医学知识预训练基础和专业性,团队还重点对比了多个开源推理模型,并最终选择了QwQ_32B作为基础模型。
在数据准备与训练策略上,团队充分利用了壹生检康旗下toC应用“闺蜜医生”平台积累的真实病例数据。他们筛选出具有代表性的数据样本,通过DeepSeek进行蒸馏处理,并将蒸馏数据用于第一轮训练。然而,未经标注的纯蒸馏数据对模型能力的提升影响甚微。因此,在第二轮训练中,团队邀请了医生团队对数据进行逐条审核、标注和优化,最终构建起覆盖全症状、均衡化的数据集。
为了评估模型的诊断准确率,团队设计了自动化评估裁判模型,能够在每次测试中快速对比训练前后的准确率变化。同时,他们还邀请了多位三甲医院的妇科医生对模型的诊断结果和处理建议进行人工评估,以确保评估结果的公正性和客观性。
经过多位妇科专家的对比评估,壹生检康自研的豆蔻妇科大模型在月经不调、异常出血、白带异常、外阴瘙痒、下腹疼痛、下腹包块六个症状上的诊断准确率达到了77.1%,高出DeepSeek 7%。在某些特定疾病的诊断上,豆蔻妇科大模型还展现出了更优的性能和专业度。
团队在微调过程中全力优化成本。他们充分利用了贝联珠贯平台上的英伟达4090 GPU卡进行训练,单次训练耗时仅约4小时。最终形成的大型模型参数量更小,显著降低了推理成本,同时保证了推理速度和并发处理能力。
在应用场景上,豆蔻妇科大模型不仅服务于C端用户,通过闺蜜医生APP提供更加精准、专业的妇科健康建议,还赋能了妇科医生资源相对匮乏的基层诊所和大健康机构。这些机构可以通过简单的自有知识库+RAG训练,快速上线企业自己的妇科AI医生。
豆蔻妇科大模型的成功研发,不仅为医疗行业提供了更加专业化、个性化的解决方案,也为AI在医疗领域的落地应用开辟了新的道路。随着技术的不断进步和应用场景的不断拓展,相信未来会有更多像豆蔻妇科大模型这样的垂直大模型涌现出来,为人们的健康保驾护航。