Skywork UniPic 2.0 是昆仑万维开源的高效多模态生成与编辑模型,集图像理解、生成和编辑能力于一体,旨在实现高效、高质、统一的多模态建模。
一、主要功能
  1. 文本生成图像
    • 根据用户输入的文本描述,生成高质量图像,支持多种风格和场景。
  2. 图像编辑
    • 支持对现有图像进行内容修改、风格转换等操作,如替换元素、调整风格等。
  3. 多模态理解
    • 能够理解图像内容并回答相关问题,支持复杂指令的执行和内容修改。
  4. 统一“理解—生成—编辑”
    • 通过与 Qwen2.5-VL-7B 连接训练,形成 UniPic2-Metaquery,一套模型完成视觉理解、生成与编辑联动。
二、技术原理
  1. 生图编辑模块
    • 基于 SD3.5-Medium 架构,将原本只支持文本输入的模型改进为同时接受文本和图像输入,通过高质量数据训练,扩展了生图能力至生图和编辑双能力。
  2. 统一模型能力
    • 冻结生图编辑模块,联合微调 Qwen2.5-VL-7B 与连接器,在亿级图像数据上对齐多模态特征空间。
  3. 生图编辑后训练
    • 采用 Flow-GRPO 渐进式双任务强化策略,分阶段优化编辑任务一致性,避免多任务干扰。
三、应用场景
  1. 创意设计
    • 广告公司根据文案快速生成创意图像,插画师通过指令生成灵感构图,效率提升超 80%。
  2. 影视游戏开发
    • 生成角色原画、场景概念图,缩短前期设计周期。
  3. 电商与工业设计
    • 一键生成商品海报,家具品牌快速迭代包装设计。
  4. 文化遗产保护
    • 博物馆修复文物图像或根据历史文献复原古代场景。