ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

苹果推出Pico-Banana-400K数据集,为AI图像编辑模型训练提供新助力

时间:2025-10-29 10:11:09来源:互联网编辑:快讯

苹果公司近日推出了一项名为Pico-Banana-400K的图像研究数据集,该数据集包含40万张经过精心编辑的图像,旨在为文本引导的图像编辑技术提供更强大的训练和评估资源。这一成果已通过预印本平台arXiv发布,完整数据集也在GitHub上向全球研究人员开放,采用非商业性研究许可协议,允许学术机构自由使用,但禁止商业用途。

研究团队指出,当前图像编辑领域虽然技术进步显著,但开放研究仍面临数据集质量不足的挑战。现有数据集多依赖专有模型生成的合成数据,或仅包含有限的人工筛选样本,普遍存在领域偏差、编辑类型分布不均以及质量控制不一致等问题,这些问题严重制约了鲁棒图像编辑模型的发展。为突破这一瓶颈,苹果团队决定构建一个更全面、更具代表性的数据集。

Pico-Banana-400K的构建过程始于对OpenImages数据集中真实照片的筛选,确保样本涵盖人物、物体及含文字场景等多样化内容。研究团队设计了35种不同类型的图像编辑指令,并将其归类为八大类别,包括像素与光度调整(如添加复古滤镜)、以人为中心的编辑(如将人物转换为卡通风格)、场景构成与多主体编辑(如改变天气条件)、对象级语义修改(如移动物体位置)、图像缩放(如放大画面)等。

在编辑过程中,研究人员将原始图像与编辑指令输入谷歌的Gemini 2.5-Flash-Image模型(也被称为Nanon-Banana)进行生成,随后利用Gemini 2.5-Pro模型对结果进行自动评估,确保编辑结果既准确遵循指令,又具备良好视觉质量。只有通过双重验证的样本才会被纳入最终数据集。

该数据集不仅包含单轮编辑的样本,还涵盖了多轮连续编辑序列,以及“偏好对”样本——即成功与失败编辑结果的对比,帮助模型学习区分理想与不良输出。这种设计使得Pico-Banana-400K能够支持更复杂的编辑任务,并为模型训练提供更丰富的反馈信号。

尽管研究团队承认Nanon-Banana模型在精细空间控制、布局外推和文字排版处理方面仍存在局限,但他们强调,Pico-Banana-400K的目标是为下一代文本引导图像编辑模型提供一个坚实、可复现的基础。通过公开这一资源,苹果希望推动图像编辑领域的技术进步,并为研究人员提供更高效的工具,以应对开放研究中的数据挑战。

更多热门内容
银发族打破刻板印象:互联网上“冲浪” 消费休闲尽显新活力
根据中国人民大学人口与发展研究中心和北京大学未来城市研究中心联合发布的《从线上到线下:老年人短视频使用与线下社会参与报告》显示,在使用短视频App的老年人中,约90%平均每天观看总时长在2小时以内。 京东《…

2025-10-29

排队免单新策略:如何让私域电商跳出价格战,实现复购率与客单价双提升
一种名为 「排队免单」的模式,正在让一批商家跳出价格战泥潭:某美妆集合店上线该模式30天,复购率提升240%,客单价提升57%;某零食品牌凭借此模式,单月通过私域裂变新增8000+精准客户。 它的精妙在于…

2025-10-29