ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

85后女硕士改进主题建模算法 提升百度数据训练能力

时间:2012-08-09 11:31:22来源:互联网编辑:星辉

(从左至右:百度商务搜索部贾宁 苏州大学叶芸 百度商务搜索部张翼)

“ 在线学习 的 主题建模 算 法 ” 攻破互联网海量数据挑战

海量数据的分析能力被 IT 界视为最具商业价值的技术突破口之一,而这也是影响互联网用户体验的重要关键点。搜索引擎是互联网分发流量最大的入口,每天数十亿次的搜索请求包含了众多信息,目前百度收纳的网页已经超过 2000 亿,如何从大规模数据集中快速获得有效信息可谓是技术界机器学习领域的最大热点。 “ Topic Model( 主题模型 ) 技术是分析和理解海量文本信息的有效手段,在百度网页搜索质量和商业流量变现中都发挥着非常重要的作用”,百度商务搜索部高级工程师贾宁说到。贾宁所在的商务搜索部是百度负责搜索流量变现的核心部门,“ 每天都有新想法在尝试, 技术创新是推动凤巢 ( 百度搜索广告系统的代号 ) 不断提升的重要动力” 。

来自苏州大学的叶芸今年七月实现了主题建模领域一项 重大 的技术突破,经她 改进 的在线学习 主题建模 算法 ( online-topic-model ) 可以快速处理大规模的数据集, 高 效实时的处理大规模数据流,及时捕获亿万网民搜索需求的变化趋势,获得更准确有效的主题。 叶芸在介绍她的技术成果时说:“ 这种方法就好比一个生产流水线,我们传统的数据处理方式相当于把一个产品的各个零部件凑齐后再组装,也就是收集大量数据后统一进行分析,而在线学习就等于流水线上来一个零件我们就组装一个,整个过程非常高效,不必等待全部的零件聚齐才能组装。 ”

而 从效能的角度上来看,叶芸解释道,在线学习比起离线学习算法来说有 三大优势 。“首先,离线算法将整个数据集作为处理对象,因此对内存容量要求很高,但在线学习就可以分段处理,节约内存。其次,这种在线学习算法可以容纳更海量的数据处理要求,在数据量达 到一定规模时就呈现出极好的优势,能缩短耗时,并完成传统算法不能解决的任务。第三,离线算法对数据流形式的数据集束手无策,可在线学习算法却能在不耗费更多成本的情况下轻松完成。”

百度校园 主题研究项目 :做“以问题为导向”的研究

谈起这项成果的产出,叶芸认为, 正是苏州大学与 百度校园 在主题研究项目上的合作为 自己 创造了与百度结缘的机遇 ,叶芸在百度实习 期间 同时得到了基础架构部和 百度资深工程师 贾宁和张翼 的全力支持, 她认为百度技术 导师对她的启发 是最大的, 帮她克服了项目实现过程中不少技术困难。 “在新开发的技术和原有底层技术上做研发,既要具备很强的学习理解能力,也要拿出具有兼容性的创新方案。在百度海量的数据集和高性能的硬件支持下进行科研工作, 跳脱出理论阶段, 验证自己的观点, 做有用的研究 是件极有成就感的事。”

百度商务搜索部的贾宁和张翼作为叶芸的技术导师也为这项 突破性的技术成果 而感到振奋。 张翼说:“ 在百度,即使是实时数据流,也是非常巨大的,动辄以千万甚至亿计。叶芸把在线学习和大规模并行学习做了一个出色的融合,能够处理“大规模数据流”,因此才能深入挖掘和建模百度的海量数据,准确捕捉网民的需求变化,并优化广告检索,提升网民体验。” 百度商务搜索部的贾宁也认为叶芸实现了百度数据训练的处理能力的重大 创新和 突破。 “ 在数据训练这个模块,我们原本只能处理四五千万的数据,现在可以逐步分析多达几亿甚至几十亿的数据量,数据处理能力大大提升,对数据流的变化 也 有 了 更好的掌握。 ”

百度校园品牌 总监张高博士表示:“ 我们把百度工程师在实际工作中遇到的技术问题与高校分享,通过 开放研究计划的形式和各大高校合作 , 力求找到切实可行的 解决 方法 。我们设计的基于百度数据的主题研究项目, 每个学校都有机会参与进来,获取百度提供的相关数据,共同开展研究。我们希望创造 出 更多符合互联网实际应用 需求的新技术,为数亿网民的搜索体验带来提升,也为互联网技术的创新 注入更多 的 新能量。 ”

三. 新 技术有望申请专利

苏州 大学的特聘教授曾嘉是叶芸的导师,他认为这项研发成果是校企联合过程中一个非常可喜的成果。 “ 我们在学校计划开发在线消息传递算法( online belief propagation )是对主题模型 LDA ( latent Dirichlet allocation )的优化 , 叶芸同学在百度实习的过程中,在兼顾企业原有底层技术的同时,经过优化研发出了真正适用于实际情况的在线学习算法,甚至结合了 百度 技术部门最新开发的技术,使得在线学习 的主题建模 算法更为贴合企业实际应用的创新。学术力量产出真正具有商业价值的成果,确实是一个令人兴奋的消息。”

8 月底,此项技术将在百度正式投入应用, 并计划开展 技术 专利 的申请 工作 。

更多热门内容
2025年影像旗舰大比拼:四款长焦强机,哪款能成你的创作利器?
据多家权威媒体和部分消费者的观点来看,vivo X300 Pro的2亿长焦性能已成为2025年最强,这也是为什么它能成为TOP1。若你追求极致的远摄能力、全面的焦段覆盖与顶级的画质表现,尤其是热爱旅行、演唱…

2025-09-20

2025智能手表TOP3榜单揭晓!从全能旗舰到健康助手,精准匹配你的生活场景
如果你注重品牌、追求高性价比和强大的性能和丰富多样化的智能功能,览邦WatchUltra可能更适合你;它以联发科MTK6762八核处理器(2.0GHz主频)+6GB LPDDR5X运存+128GB存储的硬核…

2025-09-20

听脑AI:内容创作者的“效率神器”,让语音转文字从繁琐到轻松
以前我觉得「语音转文字」就是个「工具」,能转就行;直到用了听脑AI才发现,真正好用的工具,是「懂你的痛点」:它知道你开会想「分清谁在说」,所以做了「发言人区分」;知道你整理纪要想「省时间」,所以做了「智能结…

2025-09-20

2025年手机摄影大比拼:五款影像强机深度测评与选购指南
作为中端机影像革命的标杆,vivo S30 搭载双 OIS 光学防抖系统(5000 万索尼 IMX882 主摄 + 5000万潜望长焦),配合 f/1.79 大光圈与 1/1.56 英寸感光元件,在 25…

2025-09-20

vivo X300 Pro:2亿像素长焦加持,旅拍人文皆出色,5299元起值吗?
相比传统长焦,vivo X300 Pro不仅带来更远距离的拍摄能力,更能呈现丰富细节。它能覆盖23mm、35mm、50mm等经典人文焦段,结合计算影像算法,无论是大场景的风光,还是街头的人文特写,甚至日常随…

2025-09-20

2025年手机选购全攻略:5000-6000元影像旗舰与2000-4000元高性价比机型推荐
该价位是各家“大杯”旗舰的主战场,极致影像、性能、质感无一缺席。 TOP2: 小米17 Pro — 性能与高像素兼顾(人像拍摄89分)此价位能在性能、拍照、设计中找到良好平衡,是多数用户的甜点区间。 该价…

2025-09-20

天马42年坚守创新推出“天工屏”,以三大技术开启高端显示感官革命新篇
此次发布不仅是天马42年发展的重要里程碑,更以“超级护眼、极致通透、畅快高刷”三大突破性屏幕技术体验,重新定义高端显示新标准,推动行业进入以健康体验为核心的感官革命新阶段。 天马微电子执行副总裁姜华玮在《屏实…

2025-09-20

天马42年磨一剑推“天工屏”,以三大技术重新定义高端显示新标准
此次发布不仅是天马42年发展的重要里程碑,更以“超级护眼、极致通透、畅快高刷”三大突破性屏幕技术体验,重新定义高端显示新标准,推动行业进入以健康体验为核心的感官革命新阶段。 天马微电子执行副总裁姜华玮在《屏实…

2025-09-20

荣耀Magic8系列新动态:分两次发布,影像AI双升级,mini与Ultra年后登场
除了落地AiMAGE,官方表示会有新东西,之前说过不用一英寸和一镜双目长焦,你们猜猜是什么方案”。据悉,爆料中提到的AiMAGE影像系统是荣耀此前发布的全新影像技术品牌,含端云协同的 AI KERNEL 与…

2025-09-20

Notion 3.0重磅来袭:AI智能体成核心,个性化定制开启高效办公新体验
月 20 日消息,笔记与协作平台 Notion 推出了史上最大版本更新 Notion 3.0,将 AI智能体(Agent)作为核心功能,与传统仅提供建议的聊天机器人不同,这些 Agent 能直接在平台内完成…

2025-09-20