ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

苹果推出Pico-Banana-400K数据集,为文本引导图像编辑模型提供优质训练资源

时间:2025-10-29 14:05:00来源:快讯编辑:快讯

苹果公司近日宣布推出一项名为《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》的研究成果,并同步公开了包含40万张图像的完整数据集。该数据集采用非商业性研究许可协议发布,允许全球学术机构和研究人员自由使用,但明确禁止商业用途。这一举措旨在解决当前图像编辑领域数据集质量参差不齐、共享性受限等核心问题。

研究团队指出,尽管近年来图像生成与编辑技术取得显著突破,但开放研究仍面临关键瓶颈。现有数据集普遍存在三大缺陷:依赖专有模型生成的合成数据、人工筛选子集规模有限、以及领域偏移与质量控制不一致等问题。这些缺陷直接导致鲁棒图像编辑模型的开发受阻。为突破这一局限,苹果团队历时数月构建了Pico-Banana-400K数据集。

该数据集的构建流程体现了严格的筛选机制。研究人员首先从OpenImages数据集中精选涵盖人物、物体及文字场景的多样化真实照片,随后设计了35类图像修改指令,并划分为八大编辑类别。具体包括像素与光度调整(如添加复古滤镜)、以人为中心的编辑(如生成Funko-Pop风格形象)、场景构成编辑(如天气条件变换)、对象级语义修改(如物体空间关系调整)等。

在技术实现层面,团队采用谷歌的Gemini-2.5系列模型完成核心工作。每张原始图像与编辑指令输入至Nanon-Banana模型(即Gemini 2.5-Flash-Image)生成编辑结果后,需通过Gemini 2.5-Pro模型的双重验证:评估编辑是否精准遵循指令,并确保视觉质量达标。只有通过严格筛选的样本才会被纳入最终数据集。

数据集的创新性体现在其结构设计上。除包含单轮编辑样本外,还首次引入多轮连续编辑序列,模拟真实场景中的渐进式修改需求。更值得关注的是"偏好对"样本的收录——通过对比成功与失败的编辑结果,为模型提供区分优质输出的学习范例。这种设计有助于提升下一代文本引导图像编辑模型的判断能力。

研究团队坦承,当前使用的Nanon-Banana模型在精细空间控制、布局外推及文字排版处理方面仍存在改进空间。但他们强调,Pico-Banana-400K的核心价值在于为行业提供首个可复现、高质量的训练与评测基准。目前,相关研究论文已上线预印本平台arXiv,完整数据集则在GitHub平台向全球研究者开放下载。

更多热门内容
苹果OLED屏幕升级路线图揭晓:iPad mini与MacBook Pro或率先于2026年升级
与 iPad Air 类似,计划于 2026 年春季更新的 MacBook Air 也将继续采用 LCD 屏幕。 该博文指出苹果的 OLED屏幕部署策略呈现出清晰的梯队化特征:高端的 Pro 系列率先完成…

2025-10-29

苹果加速布局OLED阵营:iPad mini、iPad Air及MacBook系列将逐步告别LCD
快科技10月29日消息,据媒体报道,苹果正在研发搭载OLED显示屏的iPad mini、iPad Air、MacBook Pro和MacBookAir机型,苹果已在iPad Pro中采用OLED屏,并计划在…

2025-10-29

苹果新iPad mini防水性能升级 或2026年登场还配OLED屏
快科技10月29日消息,据媒体报道,苹果正在研发一款具备更强防水能力的iPadmini,其防水性能将与iPhone相近,能在浴室、泳池等潮湿环境中安全使用。 据悉,苹果为这款iPad mini打造了全新的扬…

2025-10-29

三星三折叠屏手机亮相,内折设计引关注,市场前景待观察
此前的一份消息曾显示,三星电子对其首款三折叠智能手机的产能规划约 5 万台,仅是初代折叠屏产品 Galaxy Fold 的 1/10。同时,Galaxy Z Fold 8 是否能够重新支持 S Pen 手…

2025-10-29

​荣耀新动向:新电池备案亮相,10000mAh±大容量或引中端机市场新潮流​
这台手机的厚度只有 8.Xmm,配备 1.5K LTPS 屏幕,处理器是联发科天玑8500,拥有抗摔材料机身、光学屏幕指纹,核心亮点是“无敌大电池”,屏幕和性能“也不错”,行业预估“能爆”,排期暂定 20…

2025-10-29

华为Mate70 Air海报亮相:大屏纤薄机身 6字头大电池续航无忧
据此前的爆料消息称,华为Mate70 Air拥有超薄设计感,配置方面也没有太大牺牲,该机会采用6xxx大电池,比起iPhone Air的3149mAh电池根本就不是一个量级,续航表现上不会受到影响,依旧能满…

2025-10-29

富士康携手英伟达,休斯顿工厂将启用人形机器人专产AI服务器
今年 6 月有消息称,富士康与英伟达正在洽谈将人形机器人引入休斯顿工厂,计划在 2026 年第一季度投入使用。 综合IT之家此前报道,今年 6 月的消息称,富士康正与英伟达联合开发自研人形机器人,并已测试中…

2025-10-29

苹果iPhone固态按键新突破:2027年iPhone 20或率先量产应用
快科技10月29日消息,博主刹那数码称,苹果iPhone的固态按键方案已完成功能验证,计划在2027年的iPhone 20上量产应用。届时电源键、音量键、操作按钮以及相机控制按钮都将会升级为具备局部振动反馈的…

2025-10-29

2025高端旗舰新标杆 荣耀Magic8以全能实力重塑智能体验格局
AI换脸检测、通话反诈及3D人脸识别等功能,为用户提供多层防护,使设备在智能化体验的同时保证信息安全,这也让荣耀Magic8成为2025最值得买的手机。荣耀Magic8不仅满足日常使用,更提升了创作与娱乐体验…

2025-10-29

荣耀MagicOS 10:以AI自进化开启“系统适应人”的智慧交互新纪元
2025年10月23日,在荣耀全球开发者大会暨AI终端生态大会上,荣耀对“自进化AI智能体操作系统” MagicOS10展开了深度分享,全新的荣耀MagicOS 10是荣耀对“AI时代操作系统”这一命题交…

2025-10-29