ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

苹果推出Pico-Banana-400K数据集,为文本引导图像编辑模型提供优质训练资源

时间:2025-10-29 14:05:00来源:快讯编辑:快讯

苹果公司近日宣布推出一项名为《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》的研究成果,并同步公开了包含40万张图像的完整数据集。该数据集采用非商业性研究许可协议发布,允许全球学术机构和研究人员自由使用,但明确禁止商业用途。这一举措旨在解决当前图像编辑领域数据集质量参差不齐、共享性受限等核心问题。

研究团队指出,尽管近年来图像生成与编辑技术取得显著突破,但开放研究仍面临关键瓶颈。现有数据集普遍存在三大缺陷:依赖专有模型生成的合成数据、人工筛选子集规模有限、以及领域偏移与质量控制不一致等问题。这些缺陷直接导致鲁棒图像编辑模型的开发受阻。为突破这一局限,苹果团队历时数月构建了Pico-Banana-400K数据集。

该数据集的构建流程体现了严格的筛选机制。研究人员首先从OpenImages数据集中精选涵盖人物、物体及文字场景的多样化真实照片,随后设计了35类图像修改指令,并划分为八大编辑类别。具体包括像素与光度调整(如添加复古滤镜)、以人为中心的编辑(如生成Funko-Pop风格形象)、场景构成编辑(如天气条件变换)、对象级语义修改(如物体空间关系调整)等。

在技术实现层面,团队采用谷歌的Gemini-2.5系列模型完成核心工作。每张原始图像与编辑指令输入至Nanon-Banana模型(即Gemini 2.5-Flash-Image)生成编辑结果后,需通过Gemini 2.5-Pro模型的双重验证:评估编辑是否精准遵循指令,并确保视觉质量达标。只有通过严格筛选的样本才会被纳入最终数据集。

数据集的创新性体现在其结构设计上。除包含单轮编辑样本外,还首次引入多轮连续编辑序列,模拟真实场景中的渐进式修改需求。更值得关注的是"偏好对"样本的收录——通过对比成功与失败的编辑结果,为模型提供区分优质输出的学习范例。这种设计有助于提升下一代文本引导图像编辑模型的判断能力。

研究团队坦承,当前使用的Nanon-Banana模型在精细空间控制、布局外推及文字排版处理方面仍存在改进空间。但他们强调,Pico-Banana-400K的核心价值在于为行业提供首个可复现、高质量的训练与评测基准。目前,相关研究论文已上线预印本平台arXiv,完整数据集则在GitHub平台向全球研究者开放下载。

更多热门内容
OpenAI加速布局AI硬件赛道 2027年前或推带摄像头智能音箱
【环球网科技综合报道】据海外媒体The Information周五援引知情人士消息报道,OpenAI正加速布局人工智能硬件领域,计划于2027年前推出一款带摄像头的智能音箱,这将是该公司首款自研人工智能设备…

2026-02-23

马斯克四大预言引热议:AI与机器人浪潮下,人类未来何去何从?
这不是马斯克第一次谈AI,但这次不一样,他把AI比作一场“超音速海啸”——不是说AI来了,而是说我们已经站在浪头上了,只是还没意识到脚下的水有多急。 马斯克的这四个预言,听上去令人兴奋,也令人不安,他画出了…

2026-02-23

库克多次聚焦“视觉智能” 苹果AI可穿戴设备新品布局加速推进
但苹果并未完全依赖于 OpenAI,他们也在开发自己的视觉模型,并打算让这类技术成为其即将推出的 AI 设备系列的核心,这些设备将包括更先进的AirPods、AI 智能眼镜和一个吊坠式产品(一种带有计算机…

2026-02-23

2月22日科技热点:三星新机将发 华为手环上架 特斯拉FSD升级等资讯速递
该机已通过3C认证,支持120W快充,并有望配备7150mAh左右的大电池,或将成为2026年电池容量最大的折叠屏手机,同时保持比前代更轻薄的机身设计。特斯拉社交媒体官方账号@teslaeurope发布的最新…

2026-02-23

iPhone 18 Pro定价悬念揭晓!四大核心因素深度剖析涨跌真相
1. 牺牲硬件利润换份额:参考iPhone 17Pro的策略,苹果宁愿挤压硬件毛利率,也不涨价,后续靠AppleCare+、应用商店分成等服务业务弥补利润缺口;2. 折叠屏分担压力:2026年苹果将推出首…

2026-02-23

红米Note15 Pro+降价至千元档,16GB+512GB仅1597元,米粉捡漏正当时
不好的风气流行的速度很快,例如早期手机厂商们提到千元机的时候,都是真正售价一千元左右的机型,但这几年来阿维明显感觉手机厂商宣传中的千元机已经不实在了,就连1999元的手机也能说成千元机,给人感觉好像很便宜,但…

2026-02-23

AI录音笔怎么选?科大讯飞Magic、索尼等五款热门产品横向评测,帮你找到心仪之选
最后,声智录音笔在功能上相对全面,具备录音、转文字、语音识别等多项功能,适合日常办公和学习使用。 综合以上对比,科大讯飞AI录音笔Magic在功能、性能和设计等方面均表现出色,尤其在转文字和长续航方面具备明…

2026-02-22

职场会议新利器!科大讯飞iFLYBUDS Pro2、Pro3等无线降噪耳机深度对比
总结经过详细的对比,我们可以看到,科大讯飞的iFLYBUDSPro2和Pro3在降噪和录音转文字功能上表现突出,特别适合需要频繁进行会议记录的用户。索尼WF-1000XM4和苹果AirPods Pro 2在…

2026-02-22