Liquid AI 发布 LFM2-8B-A1B:8B 参数仅激活 1.5B,手机上跑出 4B 级 AI 速度!

高效 MoE 架构重塑边缘 AILiquidAI 推出的 LFM2-8B-A1B 是其 LFM2 系列的首个混合专家 (Mixture-of-Experts,MoE) 模型,总参数规模达 8.3B,但每 token 仅激活约 1.5B 参数。这种稀疏激活机制在保持高表示能力的同时,大幅降低计算负载,使其适用于资源受限的设备端场景。不同于传统云端 MoE 模型,该设计针对实时交互优化,挑战了 「小规模 MoE 不高效」 的行业认知。

模型基于 LFM2 混合骨干架构,包括 18 个门控短卷积块和 6 个分组查询注意力 (GQA) 块。除前两层保持稠密以确保稳定性外,其余层均集成稀疏 MoE 前馈网络。每层配备 32 个专家,仅激活 top-4 专家,并采用归一化 sigmoid 路由器结合自适应偏置,实现负载均衡。支持 32K 上下文长度,兼容英文、阿拉伯文、中文、法文、德文、日文、韩文和西班牙文等多语言。

训练与性能:12T 令牌铸就 3-4B 级能力 LFM2-8B-A1B 通过约 12T 令牌的预训练实现,包括 55% 英文、25% 多语言和 20% 代码数据分布。随后采用 LiquidPreferenceAlignment(长度归一化 DPO/APO-Zero 融合) 进行后训练,使用混合 BF16/FP8 精度,提升训练效率 3 倍以上。

在基准测试中,该模型展现出超越同规模竞争者的实力:

  • 知识与指令跟随:MMLU-Pro 得分 37.4(较 LFM2-2.6B 提升 11.5),IFEval77.6,Multi-IF58.2。
  • 数学能力:GSM8K84.4,GSMPlus64.8,MATH50074.2。
  • 多语言处理:MGSM72.4,MMMLU55.3。
  • 编码与写作:HumanEval+69.5,LiveCodeBenchv621.0,EQ-Bench44.2。

整体而言,其输出质量媲美 3-4B 稠密模型,在多轮对话、创意写作、RAG 检索增强生成和工具调用等任务中表现出色。部署与集成:5 倍加速,适配主流框架 LFM2-8B-A1B 在 CPU 和 GPU 上的推理速度显著领先。

在 AMDRyzenAI9HX370 和三星 GalaxyS24Ultra 等设备上,使用 int4 量化与 int8 动态激活的自定义 XNNPACKMoE 内核,其解码吞吐量比 Qwen3-1.7B、IBMGranite4.0 等快达 5 倍。GPU 端集成 vLLM,支持 FlashInfer 和 CUDA-graph 编译,实现单请求与在线批处理的高效运行。

量化变体已优化至高配手机/平板/笔记本:Q4_0 约 4.7GB,F16 约 16.7GB。支持框架包括 llama.cpp(需 b6709+版本支持 lfm2moe)、ExecuTorch(移动/嵌入式 CPU) 和 vLLM(GPU)。此外,提供 上的 GGUF 量化文件及 Colab 微调笔记本,便于开发者快速上手。模型已在 LiquidPlayground 上线测试。

与影响: 推动设备端 普惠化 LFM2-8B-A1B 采用 LFMOpenLicensev1.0(基于 Apache2.0) 开源,权重与技术细节现已上传 HuggingFace(LiquidAI/LFM2-8B-A1B)。这一发布不仅降低了 AI 部署门槛,还为边缘计算注入新活力——从隐私保护的实时聊天到嵌入式智能系统,均可受益。 观点: 在云 AI 成本飙升的当下,LFM2-8B-A1B 等高效模型正加速 「AI 下沉」 趋势。

项目:https://huggingface.co/LiquidAI/LFM2-8B-A1B

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

印度启动 AI 聊天机器人购物试点:ChatGPT 率先落地,Gemini 和 Claude 即将跟进

2025-10-12 1:21:49

AI 资讯

AI 女友应用安全崩塌: 超 40 万用户 4300 万条私密对话泄露

2025-10-12 1:22:05

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索