ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

掘力计划第23期 多模态大模型为视觉障碍者打造无障碍数字体验

时间:2023-09-15 12:09:09来源:互联网编辑:茹茹

2022年9月9日,掘力计划第23期线上技术分享活动以“AIGC的应用和创新”为主题,邀请到 Jina AI 工程师季光辉进行了主题为《多模态大模型为视觉障碍者打造无障碍数字体验》的演讲。他介绍了多模态人工智能产品 SceneXplain 如何通过算法创新,为残障人士提供平等的数字体验,网站链接:scenex.jinaai.cn/a/NEW。

直播回放地址:https://juejin.cn/live/jpowermeetup23

数字时代的无障碍体验

随着移动互联网的兴起,“无障碍”已成为这个时代的重要词汇。它意味着不论性别、年龄或能力如何,每个人都能平等地获得数字产品和服务。对残障人士而言,无障碍体验尤为关键。以视障群体为例,全球约有 2.85 亿视力障碍者,其中包括 3900 万盲人。因此,如何通过科技创新为他们提供更好的数字体验,已成为一个非常迫切的需求。发达国家也开始出台相关法规,要求政府部门网站达到无障碍标准。

然而,就目前而言,无障碍体验还存在诸多不足。以网站为例,欧盟内仅有 34% 的政府网站达标;即便达标的网站,图像描述也往往过于简单或不准确。这主要是由于现有图像描述算法的局限所致。

传统图像描述算法的局限

对视障用户而言,网站图片的替代文本是实现无障碍的关键。但手动编写图像描述是一项艰巨的工作,而现有算法生成的描述往往不够丰富和准确。具体问题包括:

●图像细节缺失:算法无法准确表达图像的细节,导致视障用户难以理解图像内容。

●情感表达不足:算法无法捕捉图像所要表达的氛围与情感。

●空间关系理解不足:不同的空间关系会表达不同的意义,但算法难以识别。

●抗干扰能力弱:图像质量下降时,算法的描述能力会大幅降低。

总体来说,现有图像描述算法要么只能生成图像提示词,无法形成流畅的语言描述;要么对复杂图像理解不足,无法生成高质量的描述。

SceneXplain:多模态算法生成高密度图像描述

针对上述问题,Jina AI 研发的 SceneXplain 利用多模态深度学习算法,实现了图像高密度描述的自动生成。该算法专注处理复杂场景图像,通过多语言描述呈现图像细节。其优势包括:

●捕捉图像细节。可准确描述复杂图像的场景元素、空间关系等细节。

●抓取图像情感。可分析作品的语调和氛围,帮助用户理解图像情感。

●生成连贯描述。融合多模态信息,以流畅自然的语言描述图像。

●强大抗干扰。可应对低质量、噪声图像,输出可靠描述。

通过案例分析,SceneXplain 明显优于旧有算法。它可生成上下文丰富、情感细腻的描述,帮助视障用户充分理解图像所传达的信息。

除图像外,SceneXplain 也可自动描述视频内容。它可解析不同语言的视频,识别关键场景,并产出多语言描述,带来更好的视频无障碍体验。

对开发者而言,SceneXplain 提供灵活的 API 接口,支持自定义描述长度、语言等。开发者可以基于该API开发无障碍应用插件,为更多用户提供无障碍服务。

以科技促进无障碍发展

数字时代,我们有责任利用科技力量,为每个人创造公平的数字体验。SceneXplain 正是基于这样的理念诞生的产品。它展示了人工智能算法的进步如何惠及残障群体,为他们带来比文字和图像更丰富的数字体验。让我们一起期待人工智能为弱势群体带来更多惊喜,构建充满温度与阳光的数字社会。

更多热门内容
短交通产品电池安全有了新国标,九号率先完成“全系转换”
无论是手机、汽车,还是各类短交通工具、甚至是商场里的共享充电宝,大家每天都在和电池打交道。它藏在金属外壳、塑料外壳甚至脚踏板下,不被看见,却承载着提供出行动力能量的主要职责。绝大多数时候,没人会去想它——直到安全事件发生,才会意识到:评判电池的体验好

2025-11-01

11月1日苏超决赛福利来袭:上京东猜胜负赢京豆、签名球衣1元起拍、武艺陪你看直播
随着江苏省城市足球联赛(以下简称“苏超”)决赛战幕将启,作为苏超官方战略合作伙伴,京东11月1日推出京东11.11“球迷惊喜日”主题活动,通过多重福利活动,为球迷带来一场沉浸式的观赛体验。活动期间,消费者不仅可1元竞拍C罗、梅西等众多球星亲签球衣等稀缺藏品、参与

2025-11-01

重磅登场!京东物流狼族机器人全阵容亮相世界物联网博览会
10月31日,以“万物智联、无尽前沿”为主题的世界物联网博览会在江苏无锡正式开幕。在这个全球物联网领域最具影响力的展会上,京东物流“狼族”智能机器人军团以全系列产品阵容重磅亮相,成为展会焦点。本次物博会正值京东11.11大促期间,京东物流首次将经过实战检验的

2025-11-01

京东直播开展“暖阳助老公益行动” 联手芙崽、雨森、元萝卜等品牌捐赠爱心物资
10月29日重阳节,京东直播在中国老龄事业发展基金会、京东公益联合发起的“暖阳助老公益行动” 中,以“暖阳速递·总裁送温暖”为直播主题,联合芙崽、雨森、元萝卜、爱舒乐、多亲(QIN)等品牌积极参与,通过直播形式向养老院捐赠爱心物资。创新公益模式,直播传递温暖本

2025-11-01

48小时斩获200+台订单!FX Super One创中东MPV销售纪录
10月31日,Faraday Future(纳斯达克代码:FFAI),简称FF)宣布,FX Super One在中东终结发布会结束后48小时内累计收取B2B不可退付费预订单200+台,体现出B2B合作伙伴对FX Super One的超高热情和信心。2C付费预订单中,有一台是用户通过USTD加密资产成功预订FX Super One

2025-11-01

官宣!八位堂格斗产品代言人双子星闪耀登陆
八位堂品牌创立于2013年7月15日,历经十多年发展,八位堂已成长为国内知名的游戏外设厂商,不断破圈,声名远播。在2025年街霸6白金赛来临之际,八位堂正式官宣:与中国职业格斗游戏新生代力量——Zhen村肉和Vxbao小宝签约,八位堂格斗产品代言人双子星闪耀登陆!Zhen村肉

2025-11-01

联想保值换新保障来袭:双十一买得安心,用得更久
年终将近,桌上那台陪伴了一整年的设备,似乎也在悄悄“泄气”:开机越来越慢,软件频繁卡顿,风扇一天比一天吵,甚至连平时最信赖的键盘鼠标都开始“不听话”,明明还没打算换电脑,设备却开始用各种“暗示”逼你做决定。更糟的是,这些问题通常不是一下子爆发,而是“

2025-11-01

Hugging Face创始人x小红书技术副总裁对谈:开源、AI与技术人的成长
刚刚过去的1024程序员节,小红书Red Academy和小红书科技发起了一场直播,在这场直播里,小红书技术副总裁凯奇、小红书语音模型技术负责人风龙,携手Hugging Face联合创始人Thomas Wolf,以最近流行的AMA(Ask Me Anything)形式,进行了一场关于技术、AI与未来的深度对谈

2025-11-01

隐私保护再获认可!“全球Robotaxi第一股”文远知行通国际审核
在自动驾驶技术飞速发展的当下,用户隐私与数据安全已成为行业关注的核心议题。近日,“全球Robotaxi第一股”文远知行传来重要消息——其正式通过国际权威机构 TÜV NORD 北德集团的严格审核,成功斩获 ISO/IEC 27701:2019 隐私信息管理体系认证。这一成果不仅是对文远

2025-11-01

爱旭与墨尔本大学签署合作备忘录,共筑“AI+零碳”创新未来
10月28日,爱旭与澳大利亚顶尖学府墨尔本大学举行签约仪式,正式签署战略合作备忘录。双方将携手在光伏技术前沿领域展开深入合作,共建全球能源基础设施合作平台,共同推动可再生能源的创新与应用,促进可持续、气候适应性强的基础设施和净零创新。根据备忘录约定,爱旭

2025-10-31