ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

聚焦多模态自然语言处理,京东智联云亮相NLPCC 2020

时间:2020-11-02 13:53:21来源:互联网编辑:星辉

近年来,人工智能 (AI) 在涉及单一模态如语音、自然语言和视觉等领域,取得了重大突破。在单一模态的任务上,如物体识别、语音识别、机器翻译等,AI 系统在特定数据集上的表现水平与人类相当。随着单模态人工智能潜在问题的解决,研究人员意识到更高层次的AI任务往往涉及到跨多种模式的更复杂的信息处理。同时,局限于单一模态的研究往往不能充分利用跨模态信息。因此,研究多模态建模与学习方法具有重要的意义。

在本次国际自然语言处理与中文计算会议 (NLPCC 2020)上, 京东智联云举办了第一届“多模态自然语言处理研讨会”。该研讨会邀请了多位学术大咖进行学术分享,吸引了自然语言处理、多模态、图像处理等多领域众多学者参与。会中,各位学者就跨语言跨模态信息处理、多模态预训练、AI与艺术、视觉与语言交互、多模态对话系统等领域的研究热点和技术应用展开讨论,反响热烈。

看点一  多模态自动摘要生成

多模态已成为新闻报道和信息交流的主要呈现形式,多模态自动摘要技术,旨在利用计算机自动实现从多个模态的信息中压缩生成摘要的过程,可以广泛应用于新闻推送和电商推荐等多个领域。

在本次研讨会中,来自中科院自动化所的研究员张家俊老师,为大家介绍其所在的课题组近年来在多模态摘要方法和评价等方面的研究进展。张老师重点介绍了异源多模态摘要生成的研究方法变迁:从抽取式方法到生成式方法,再到目前融入多模态注意力机制的图文式摘要生成方法等。同时,张老师也介绍了多模态自动摘要的自动评价方法: 综合考虑文本和图片重要性以及文本图片相关性更加贴近人工打分。

upload/2020-11/201102135464637.png

Slides link: https://github.com/jd-aig/mmnlp/blob/main/2020/Speaker-JiajunZhang.pdf

看点二 多模态预训练模型

预训练模型的出现,使自然语言处理由原来的手工调参、依靠机器学习专家的阶段,进入到可以大规模、可复制的大工业施展阶段。此阶段基于预训练模型+微调机制,具备很高的可扩展性,展现出很高潜力。而当前研究也从单一语言扩展到多模态。

微软亚洲研究院的高级研究员段楠博士为大家介绍了多模态预训练模型的最新研究进展。他首先回顾了典型的预训练模型。随后,重点介绍了3种最新的多模态预训练模型:Unicoder主要应用于跨语言的语言理解和生成任务;Unicoder VL专注于视频语言任务,对视频片段和对应的自然语言描述进行联合建模;CodeBERT则关注在代码语言任务。段博士也和与会学者一起讨论了当前多模态预训练的问题和可能的未来方向。

upload/2020-11/201102135464636.png

Slides link:https://github.com/jd-aig/mmnlp/blob/main/2020/Speaker-NanDuan.pdf

看点三  人工智能艺术与设计

“AI+艺术是一个跨界领域。艺术家的想象力往往启发着科学家的创造力,而在AI时代,艺术家用人工智能机器学习相关技术来创作艺术,表达自己的想法和概念,设计师用神经网络模型创造自己的设计工具和助手。”

清华大学未来实验室博士后高峰分享了AI技术在艺术与设计领域的创新性应用。其团队开发的道子智能绘画系统,利用计算机将自然图像以风格迁移的方式转变成艺术图像,根据所得艺术图像进行水墨画绘作,实现技术与艺术间的跨界融合。高博士也介绍了道子在服装设计、工业设计、装置艺术等领域的探索成果。

upload/2020-11/201102135464635.png

看点四 多模态智能分析

多模态智能分析是近期的研究热点。来自北航的刘偲教授围绕视觉和语言的交互介绍两方面的内容进行了分享。她首先介绍了视觉关系检测的研究,包括人-物关系检测,人-物关系分割,视频关系检测等方面的内容。其次,她指出视觉指代表达和指代分割,对于智能机器人和交互式图像编辑等实际应用有重要意义。 传统的视觉指代表达方法采用两阶段式架构,模型复杂且速度受限,而传统的指代分割方法聚焦于多模态特征融合,缺乏利用语言信息进行上下文建模和推理的能力。在本次讨论中,她给出了针对性的解决方法。

upload/2020-11/201102135464632.png

Slides link:https://github.com/jd-aig/mmnlp/blob/main/2020/Speaker-SiLiu.pdf

看点五 多模态对话系统

对话系统一直是自然语言理解领域一个重要的研究内容,它可以使人们更便捷的与机器进行交互,而多模态的对话系统是非常重要的一个研究方向。

平安寿险AI研发团队的杨海钦博士,分享了多模态对话系统在平安人寿各种场景的应用,包括保单回访服务和视频柜员客服等。在本次讲座中,杨博士重点介绍了多模态对话系统的核心和创新技术,实际部署经验以及如何应用该系统来降低运营成本,同时增加用户体验。

upload/2020-11/201102135464631.png

Slides link: https://github.com/jd-aig/mmnlp/blob/main/2020/Speaker-HaiqinYang.pdf

在此次NLPCC 会议中,京东智联云成功举办了第一届“多模态自然语言处理研讨会”,吸引众多参会学者的积极参与和热烈讨论。同时京东AI研究院NLP算法科学家吴友政博士受大会邀请作“智能人机交互及其应用”的主题分享。另外京东AI研究院一篇论文被大会收录并进行口头汇报。(Paper link https://link.springer.com/chapter/10.1007/978-3-030-60450-9_6)

upload/2020-11/201102135464634.png
upload/2020-11/201102135464633.png
更多热门内容
不负全球玩家期待!全AI掠夺者家族50系新品重磅开售!
在高端电竞本领域,掠夺者一直以先锋姿态引领行业发展,全新掠夺者·战斧18 AI等新品在CES 2025展会一经亮相,便将2025高端AI电竞本的期待值拉满。超前的设计理念和以玩家体验为核心的产品思路,贯穿掠夺者三款重磅新品:从发烧友的终极梦想至尊机皇掠夺者·战斧18 AI,

2025-06-06

餐桌底下的清洁高手!萤石云视觉商用清洁机器人BS1革新食堂清洁模式
在智能化浪潮席卷商业领域的当下,清洁行业正迎来一场革命性变革。2024 年,萤石首款云视觉商用清洁机器人 BS1 正式亮相市场,凭借前期先锋客户端的试运行测试及系统深度对接,迅速在全国各大写字楼、展厅、银行、食堂、酒店等场景崭露头角,开启智能清洁新篇章。AI 视

2025-05-23

京东新品国补立省 潮玩新次元游戏本华硕天选6 Pro来袭
5月16日京东新品日,打开京东APP来新品频道,买华硕天选6 Pro新品享国家补贴20% #京东新品 #京东重磅新品日,到手6999元起。华硕天选6 Pro搭载RTX 5070笔记本电脑GPU,至高可选AMD锐龙9 9955HX或Intel酷睿Ultra 9 275HX高性能平台,采用全新模具和散热系统,集卓越性能

2025-05-19

一加官宣首次将风驰游戏内核写入天玑平台,并与MediaTek联合发布天玑9400系列新芯片
2024年5月14日,一加宣布将与MediaTek联合举办“芯旗舰 新上限”游戏战略沟通会暨芯片发布会,双方将在游戏技术共融、芯片定制、内核重构、技术联合等多方面展开前所未有的深度战略合作。一加将自研的芯片级游戏技术「风驰游戏内核」首次注入天玑旗舰芯片,让游戏体验再破

2025-05-13

MiTAC 神雲科技发布搭载最新AMD EPYC™ 4005系列处理器产品
【加州纽瓦克电—2025年5月13日】—作为专业的服务器设计与制造商,神达控股股份有限公司(股票代号:3706)旗下子公司神雲科技股份有限公司(MiTAC Computing Technology Corp.)推出了支持AMD EPYC™ 4005系列处理器的最新产品。这些更新的服务器解决方案可提供更高的性能和

2025-05-13