LFM2-VL 扩展自 LiquidAI 之前推出的 LFM2 架构,整合了视觉与语言处理能力,支持多分辨率的图片输入,可处理文本与图像,具有
在图像处理方面,LFM2-VL 能以原始分辨率 (
训练数据方面,LFM2-VL 涉及约 1,000 亿多模态训练 token,来源包括开源数据集与公司自有合成图像数据 (Venturebeat,liquid.ai)。评测结果显示,LFM2-VL-1.6B 在 RealWorldQA(65.23)、InfoVQA(58.68)、OCRBench(742) 等任务中成绩优异,同时在推理效率上领先于同类模型 (Venturebeat,liquid.ai)。
目前,这些模型已在 HuggingFace 发布,并附有在 Colab 上的微调示例代码,兼容 HuggingFaceTransformers 与 TRL 库。它们采用了一种基于 Apache2.0 原则的新 「LFM1.0 授权协议」,允许学术使用,年收入低于 1,000 万美元的公司可用于商业,而年营收更高的企业则需联系 LiquidAI 获取授权 (Venturebeat,liquid.ai)。
LiquidAI 的 LFM2-VL 模型组合为视觉与文本融合 AI 在设备端部署提供了新的路径,尤其适合手机、笔记本、可穿戴设备等场景,有助于降低对云端依赖,提升隐私与响应速度。
项目:https://huggingface.co/LiquidAI/LFM2-VL-1.6B
划重点:
🆕两种型号设计:LFM2-VL-450M(极简资源环境适用) 和 LFM2-VL-1.6B(更强但依然轻量),适配设备端部署。
速度与效率兼顾:GPU 推理速度高达 2 倍提升,同时具备优秀的多模态任务表现。
多平台友好环境: 已发布在 HuggingFace,提供授权选项,兼容主流开发工具,适合学术与中小企业商业用途。








