Liquid AI 推出 LFM2-VL 模型,为手机带来 「小巧又灵敏」 的 AI 视觉语言能力

LiquidAI 最新发布了 LFM2-VL 系列视觉语言基础模型 (Vision-LanguageFoundationModels),这标志着多模态 正朝着 「精简、快速、可部署在设备端」 的方向加速发展。

这两款型号分别是 LFM2-VL-450M 和 LFM2-VL-1.6B,前者专为资源受限的硬件环境设计,参数量不足 5 亿; 后者虽参数更多但依旧轻量,适合单个 GPU 或设备直接部署。

LFM2-VL 扩展自 LiquidAI 之前推出的 LFM2 架构,整合了视觉与语言处理能力,支持多分辨率的图片输入,可处理文本与图像,具有极佳的灵活性与兼容性 (liquid.ai,Venturebeat)。模型在 GPU 推理速度上实现了高达 「两倍」 的提升,并且在常见性能评测中表现不凡 (Venturebeat,liquid.ai)。

在图像处理方面,LFM2-VL 能以原始分辨率 (最高 512×512) 输入图像,避免因强制缩放带来的失真问题。对于更大尺寸图像,模型会采用非重叠切片方式处理,并配合缩略图以获取全局语境信息 (Venturebeat,liquid.ai)。其架构由语言模型主干、SigLIP2NaFlex 视觉编码器与一个多模态投影器构成。投影器使用两层 MLP(带 pixelunshuffle 技术) 来减少图像 token 数量,从而提升处理速度 (Venturebeat,liquid.ai)。

训练数据方面,LFM2-VL 涉及约 1,000 亿多模态训练 token,来源包括数据集与公司自有合成图像数据 (Venturebeat,liquid.ai)。评测结果显示,LFM2-VL-1.6B 在 RealWorldQA(65.23)、InfoVQA(58.68)、OCRBench(742) 等任务中成绩优异,同时在推理效率上领先于同类模型 (Venturebeat,liquid.ai)。

目前,这些模型已在 发布,并附有在 Colab 上的微调示例代码,兼容 HuggingFaceTransformers 与 TRL 库。它们采用了一种基于 Apache2.0 原则的新 「LFM1.0 授权协议」,允许使用,年收入低于 1,000 万美元的公司可用于商业,而年营收更高的企业则需联系 LiquidAI 获取授权 (Venturebeat,liquid.ai)。

LiquidAI 的 LFM2-VL 模型组合为视觉与文本融合 AI 在设备端部署提供了新的路径,尤其适合手机、笔记本、可穿戴设备等场景,有助于降低对云端依赖,提升隐私与响应速度。

项目:https://huggingface.co/LiquidAI/LFM2-VL-1.6B

划重点:

  • 🆕两种型号设计:LFM2-VL-450M(极简资源环境适用) 和 LFM2-VL-1.6B(更强但依然轻量),适配设备端部署。

  • 速度与效率兼顾:GPU 推理速度高达 2 倍提升,同时具备优秀的多模态任务表现。

  • 多平台友好环境: 已发布在 HuggingFace,提供授权选项,兼容主流开发工具,适合学术与中小企业商业用途。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

苹果 AI 团队遭遇人才流失,核心研究员转投 Meta、OpenAI 和 Anthropic

2025-9-4 1:22:07

AI 资讯

WordPress 重磅推出 AI 工具 Telex 简化网站构建过程

2025-9-4 1:22:24

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索