重磅! 谷歌开源 Gemma3n 多模态模型,手机也能跑出云端 AI 性能

于本周五凌晨正式发布并全新端侧多模态大模型 Gemma3n,这一突破性产品为手机、平板、笔记本等端侧设备带来了此前只能在云端体验的强大多模态功能。

核心特性: 小体积大能力

Gemma3n 提供 E2B 和 E4B 两个版本,虽然原始参数量分别为 5B 和 8B,但通过架构创新,其内存占用仅相当于传统 2B 和 4B 模型,分别只需 2GB 和 3GB 内存即可运行。该模型原生支持图像、音频、视频和文本的多模态输入处理,支持 140 种文本语言和 35 种语言的多模态理解。

值得一提的是,E4B 版本在 LMArena 评测中得分超过 1300,成为首个达到此基准的 100 亿参数以下模型,在多语言、数学、编码和推理能力方面均实现显著提升。

技术创新: 四大突破性架构

MatFormer 架构:Gemma3n 采用全新的 MatryoshkaTransformer 架构,如俄罗斯套娃般实现一个模型包含多种尺寸。训练 E4B 模型时同步优化 E2B 子模型,为开发者提供灵活的性能选择。通过 Mix-n-Match 技术,用户可在 E2B 和 E4B 之间创建自定义尺寸模型。

每层嵌入 (PLE) 技术: 这项创新允许大部分参数在 CPU 上加载计算,只有核心 Transformer 权重需要存储在加速器内存中,大幅提高内存效率的同时不影响模型质量。

KVCache 共享: 针对长内容处理优化,通过键值缓存共享技术,预填充性能相比 Gemma34B 提升两倍,显著加快长序列处理的首个 token 生成时间。

先进编码器: 音频方面采用基于通用语音模型 (USM) 的编码器,支持自动和语音翻译功能,可处理长达 30 秒的音频片段。视觉方面配备 MobileNet-V5-300M 编码器,支持多种输入分辨率,在 GooglePixel 上可达到每秒 60 帧的处理速度。

实用功能与应用场景

Gemma3n 在语音翻译方面表现突出,特别是英语与西班牙语、法语、意大利语、葡萄牙语之间的转换。视觉编码器 MobileNet-V5 通过先进蒸馏技术,相比基线模型实现 13 倍加速,参数减少 46%,内存占用降低 4 倍,同时保持更高准确率。

开源生态与发展前景

谷歌已在 平台开源模型和权重,并提供详细文档和开发指南。自去年首个 Gemma 模型发布以来,该系列累计下载量已超过 1.6 亿次,显示出强劲的开发者生态。

Gemma3n 的发布标志着端侧 进入新的发展阶段,将云端级别的多模态能力下沉到用户设备,为移动应用、智能硬件等领域带来无限可能。

地址:https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4

文档:https://ai.google.dev/gemma/docs/gemma-3n

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

YouTube 在搜索结果中添加 AI 摘要,测试对话式 AI 工具扩展

2025-6-28 1:23:14

AI 资讯

一键生成爆款视频!HeyGen AI 视频 Agent 席卷内容创作界!

2025-6-28 1:23:31

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索