Skywork UniPic 2.0 是昆仑万维开源的高效多模态生成与编辑模型,集图像理解、生成和编辑能力于一体,旨在实现高效、高质、统一的多模态建模。
一、主要功能
- 文本生成图像
- 根据用户输入的文本描述,生成高质量图像,支持多种风格和场景。
-
- 图像编辑
- 支持对现有图像进行内容修改、风格转换等操作,如替换元素、调整风格等。
-
- 多模态理解
- 能够理解图像内容并回答相关问题,支持复杂指令的执行和内容修改。
-
- 统一“理解—生成—编辑”
- 通过与 Qwen2.5-VL-7B 连接训练,形成 UniPic2-Metaquery,一套模型完成视觉理解、生成与编辑联动。
-
二、技术原理
- 生图编辑模块
- 基于 SD3.5-Medium 架构,将原本只支持文本输入的模型改进为同时接受文本和图像输入,通过高质量数据训练,扩展了生图能力至生图和编辑双能力。
-
- 统一模型能力
- 冻结生图编辑模块,联合微调 Qwen2.5-VL-7B 与连接器,在亿级图像数据上对齐多模态特征空间。
-
- 生图编辑后训练
- 采用 Flow-GRPO 渐进式双任务强化策略,分阶段优化编辑任务一致性,避免多任务干扰。
-
三、应用场景
- 创意设计
- 广告公司根据文案快速生成创意图像,插画师通过指令生成灵感构图,效率提升超 80%。
-
- 影视游戏开发
- 生成角色原画、场景概念图,缩短前期设计周期。
-
- 电商与工业设计
- 一键生成商品海报,家具品牌快速迭代包装设计。
-
- 文化遗产保护
- 博物馆修复文物图像或根据历史文献复原古代场景。
-
