LFM2-VL 是 Liquid AI 推出的专为低延迟和设备适应性部署而优化的视觉语言模型系列。
一、主要功能
  • 高效推理:GPU 推理速度比同类视觉语言模型快两倍,在 RTX 4090 上处理 1024×1024 图像仅需 120ms。
  • 支持原生分辨率:能够以 512×512 像素原生分辨率处理图像,大图自动切块并生成全局缩略图。
  • 灵活调整:用户可在推理时实时调整图像 token 数量、分块大小,无需重新训练即可平衡速度与精度。
  • 开源友好:已在 Hugging Face 开源,并附带 Colab 微调示例代码,兼容 Hugging Face transformers 和 TRL。
  • 多模态融合:在图像描述、视觉问答和多模态推理等任务上保持竞争力。
二、技术原理
  • 模块化架构:结合语言模型骨干、SigLIP2 NaFlex 视觉编码器和多模态投影器,其中投影器包含带像素解打乱的两层 MLP 连接器,可减少图像 token 数量并提高吞吐量。
  • 训练数据:使用约 1000 亿多模态 token 进行训练,数据来源于开放数据集和内部合成数据。
  • 版本差异:包括 LFM2-VL-450M 和 LFM2-VL-1.6B,分别针对资源受限环境和高端移动低延迟设备进行优化。
三、应用场景
  • 智能手机:实时图像问答、拍照识物。
  • 可穿戴设备:离线语音+视觉助手。
  • 嵌入式系统:无人机、机器人等低功耗场景。
  • 隐私敏感场景:完全离线运行,保障数据安全。
四、使用方法
  • 下载模型:在 Hugging Face 上下载。
  • 微调代码:使用 Colab 中的示例微调代码。
  • 部署应用:根据具体应用场景调整参数,如图像 token 数量、分块大小等。
五、适用人群