Liquid AI 推出 LFM2-VL：低延迟的超高效视觉语言模型|Liquid AI 推出 LFM2-VL：低延迟的超高效视觉语言模型是什么- AI工具箱，AI研究室

国家：

美国

公司：

海外公司

版本：

网页版, App

访问：

需要VPN

难度：

待评估

收费标准：

不定

免费额度：

不定

单次价格：

不定

适用人群：

待确定

用户评价：

关于Liquid AI 推出 LFM2-VL的详细信息需要进一步采集

LFM2-VL 是 Liquid AI 推出的专为低延迟和设备适应性部署而优化的视觉语言模型系列。

一、主要功能

高效推理：GPU 推理速度比同类视觉语言模型快两倍，在 RTX 4090 上处理 1024×1024 图像仅需 120ms。
支持原生分辨率：能够以 512×512 像素原生分辨率处理图像，大图自动切块并生成全局缩略图。
灵活调整：用户可在推理时实时调整图像 token 数量、分块大小，无需重新训练即可平衡速度与精度。
开源友好：已在 Hugging Face 开源，并附带 Colab 微调示例代码，兼容 Hugging Face transformers 和 TRL。
多模态融合：在图像描述、视觉问答和多模态推理等任务上保持竞争力。

二、技术原理

模块化架构：结合语言模型骨干、SigLIP2 NaFlex 视觉编码器和多模态投影器，其中投影器包含带像素解打乱的两层 MLP 连接器，可减少图像 token 数量并提高吞吐量。
训练数据：使用约 1000 亿多模态 token 进行训练，数据来源于开放数据集和内部合成数据。
版本差异：包括 LFM2-VL-450M 和 LFM2-VL-1.6B，分别针对资源受限环境和高端移动低延迟设备进行优化。

三、应用场景

四、使用方法

五、适用人群