ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

上海量子城市突破:专项语料库助力AI治理,精准“锁”住幻觉

时间:2025-07-25 07:55:58来源:上观新闻编辑:快讯团队

上海在推进其独特的量子城市愿景方面取得了显著进展,一项全国首创的规划资源领域专项语料库项目在此间正式启动。该语料库已成功整合了40TB的数据,并预期未来数据规模将扩大至200TB。

这一创新举措源自上海对“量子城市”概念的探索与实践。2024年,上海首次提出借鉴量子理论,旨在通过数字复刻现实世界,实现虚实交融,以数字手段监测、分析并优化实体城市的运行。这一愿景的支撑点之一,便是名为“云宇星空大模型”的三维空间智能规划与时空治理模型。

云宇星空大模型不仅能够帮助管理者深度洞察城市空间内各类要素的流动与配置需求,还通过AI技术提升了城市治理的精准度与效率。在项目的背后,包括商汤、阿里在内的多家AI行业领军企业积极参与,共同推动上海现代化人民城市的建设步伐。

然而,要实现这一高科技愿景,高质量的数据基础是不可或缺的。语料库,作为AI大模型学习的基石,其重要性不言而喻。不同于通用的AI大模型,云宇星空大模型专注于城市治理领域,因此需要更加专业、深入的语料进行训练。为此,上海市规划资源局主导建立了这一专项语料库,内容涵盖规划设计、测绘地理、自然资源等多个领域的专业资料。

该语料库不仅数据量大,而且质量高,包含了1200份技术标准、5.7万项城建档案等宝贵资源。如此丰富的数据资产,相当于为云宇星空大模型配备了一座知识的宝库,使其能够成为一位真正的“城市规划专家”。

为了确保语料库的质量,一支由200多名专业人士组成的团队驻扎在“量子城市时空创新先行实验区”复兴岛上,进行语料的人工标注工作。这一步骤虽然耗时费力,但对于提升AI模型的准确性和专业性至关重要。

人工标注与自动标注相结合的方式,确保了语料的高质量产出。人工标注为自动标注提供样本和校核,使得自动标注能够不断调整优化,从而提高整体标注质量。这一做法不仅让云宇星空大模型在回答问题时更加精准,也使其知识深度远超其他同类模型。

高质量语料库的建立,不仅为云宇星空大模型提供了坚实的基础,也反映了AI技术发展的新趋势。在算法和算力之外,语料数据在大模型训练中的作用日益凸显。云宇星空大模型通过专注于关键语料数据的后训练,实现了以少量算力达到高效精准的效果。

目前,语料团队已经完成了约46万条问答对的产出,其中10万条经过人工评测进入微调集,3万条用于复杂推理,1万条作为评测集。未来,随着人工测评的进一步提升,语料库的规模和质量将持续增强,为云宇星空大模型的迭代升级提供有力支持。

更多热门内容