2022年9月9日,掘力计划第23期线上技术分享活动以“AIGC的应用和创新”为主题,邀请到 Jina AI
工程师季光辉进行了主题为《多模态大模型为视觉障碍者打造无障碍数字体验》的演讲。他介绍了多模态人工智能产品 SceneXplain
如何通过算法创新,为残障人士提供平等的数字体验,网站链接:scenex.jinaai.cn/a/NEW。
直播回放地址:https://juejin.cn/live/jpowermeetup23
数字时代的无障碍体验
随着移动互联网的兴起,“无障碍”已成为这个时代的重要词汇。它意味着不论性别、年龄或能力如何,每个人都能平等地获得数字产品和服务。对残障人士而言,无障碍体验尤为关键。以视障群体为例,全球约有
2.85 亿视力障碍者,其中包括 3900
万盲人。因此,如何通过科技创新为他们提供更好的数字体验,已成为一个非常迫切的需求。发达国家也开始出台相关法规,要求政府部门网站达到无障碍标准。
然而,就目前而言,无障碍体验还存在诸多不足。以网站为例,欧盟内仅有 34%
的政府网站达标;即便达标的网站,图像描述也往往过于简单或不准确。这主要是由于现有图像描述算法的局限所致。
传统图像描述算法的局限
对视障用户而言,网站图片的替代文本是实现无障碍的关键。但手动编写图像描述是一项艰巨的工作,而现有算法生成的描述往往不够丰富和准确。具体问题包括:
●图像细节缺失:算法无法准确表达图像的细节,导致视障用户难以理解图像内容。
●情感表达不足:算法无法捕捉图像所要表达的氛围与情感。
●空间关系理解不足:不同的空间关系会表达不同的意义,但算法难以识别。
●抗干扰能力弱:图像质量下降时,算法的描述能力会大幅降低。
总体来说,现有图像描述算法要么只能生成图像提示词,无法形成流畅的语言描述;要么对复杂图像理解不足,无法生成高质量的描述。
SceneXplain:多模态算法生成高密度图像描述
针对上述问题,Jina AI 研发的 SceneXplain
利用多模态深度学习算法,实现了图像高密度描述的自动生成。该算法专注处理复杂场景图像,通过多语言描述呈现图像细节。其优势包括:
●捕捉图像细节。可准确描述复杂图像的场景元素、空间关系等细节。
●抓取图像情感。可分析作品的语调和氛围,帮助用户理解图像情感。
●生成连贯描述。融合多模态信息,以流畅自然的语言描述图像。
●强大抗干扰。可应对低质量、噪声图像,输出可靠描述。
通过案例分析,SceneXplain 明显优于旧有算法。它可生成上下文丰富、情感细腻的描述,帮助视障用户充分理解图像所传达的信息。
除图像外,SceneXplain 也可自动描述视频内容。它可解析不同语言的视频,识别关键场景,并产出多语言描述,带来更好的视频无障碍体验。
对开发者而言,SceneXplain 提供灵活的 API
接口,支持自定义描述长度、语言等。开发者可以基于该API开发无障碍应用插件,为更多用户提供无障碍服务。
以科技促进无障碍发展
数字时代,我们有责任利用科技力量,为每个人创造公平的数字体验。SceneXplain
正是基于这样的理念诞生的产品。它展示了人工智能算法的进步如何惠及残障群体,为他们带来比文字和图像更丰富的数字体验。让我们一起期待人工智能为弱势群体带来更多惊喜,构建充满温度与阳光的数字社会。
短交通产品电池安全有了新国标,九号率先完成“全系转换”
无论是手机、汽车,还是各类短交通工具、甚至是商场里的共享充电宝,大家每天都在和电池打交道。它藏在金属外壳、塑料外壳甚至脚踏板下,不被看见,却承载着提供出行动力能量的主要职责。绝大多数时候,没人会去想它——直到安全事件发生,才会意识到:评判电池的体验好
2025-11-01
重磅登场!京东物流狼族机器人全阵容亮相世界物联网博览会
10月31日,以“万物智联、无尽前沿”为主题的世界物联网博览会在江苏无锡正式开幕。在这个全球物联网领域最具影响力的展会上,京东物流“狼族”智能机器人军团以全系列产品阵容重磅亮相,成为展会焦点。本次物博会正值京东11.11大促期间,京东物流首次将经过实战检验的
2025-11-01
48小时斩获200+台订单!FX Super One创中东MPV销售纪录
10月31日,Faraday Future(纳斯达克代码:FFAI),简称FF)宣布,FX Super One在中东终结发布会结束后48小时内累计收取B2B不可退付费预订单200+台,体现出B2B合作伙伴对FX Super One的超高热情和信心。2C付费预订单中,有一台是用户通过USTD加密资产成功预订FX Super One
2025-11-01
官宣!八位堂格斗产品代言人双子星闪耀登陆
八位堂品牌创立于2013年7月15日,历经十多年发展,八位堂已成长为国内知名的游戏外设厂商,不断破圈,声名远播。在2025年街霸6白金赛来临之际,八位堂正式官宣:与中国职业格斗游戏新生代力量——Zhen村肉和Vxbao小宝签约,八位堂格斗产品代言人双子星闪耀登陆!Zhen村肉
2025-11-01
联想保值换新保障来袭:双十一买得安心,用得更久
年终将近,桌上那台陪伴了一整年的设备,似乎也在悄悄“泄气”:开机越来越慢,软件频繁卡顿,风扇一天比一天吵,甚至连平时最信赖的键盘鼠标都开始“不听话”,明明还没打算换电脑,设备却开始用各种“暗示”逼你做决定。更糟的是,这些问题通常不是一下子爆发,而是“
2025-11-01
Hugging Face创始人x小红书技术副总裁对谈:开源、AI与技术人的成长
刚刚过去的1024程序员节,小红书Red Academy和小红书科技发起了一场直播,在这场直播里,小红书技术副总裁凯奇、小红书语音模型技术负责人风龙,携手Hugging Face联合创始人Thomas Wolf,以最近流行的AMA(Ask Me Anything)形式,进行了一场关于技术、AI与未来的深度对谈
2025-11-01
隐私保护再获认可!“全球Robotaxi第一股”文远知行通国际审核
在自动驾驶技术飞速发展的当下,用户隐私与数据安全已成为行业关注的核心议题。近日,“全球Robotaxi第一股”文远知行传来重要消息——其正式通过国际权威机构 TÜV NORD 北德集团的严格审核,成功斩获 ISO/IEC 27701:2019 隐私信息管理体系认证。这一成果不仅是对文远
2025-11-01
爱旭与墨尔本大学签署合作备忘录,共筑“AI+零碳”创新未来
10月28日,爱旭与澳大利亚顶尖学府墨尔本大学举行签约仪式,正式签署战略合作备忘录。双方将携手在光伏技术前沿领域展开深入合作,共建全球能源基础设施合作平台,共同推动可再生能源的创新与应用,促进可持续、气候适应性强的基础设施和净零创新。根据备忘录约定,爱旭
2025-10-31