开源多模态模型 MiniCPM-V 4.5 发布,8 亿参数实现移动端 AI 部署

近日, 社区迎来重要进展,面向端侧设备的多模态大语言模型 MiniCPM-V4.5 正式发布。这款模型以 8 亿参数规模实现了在智能手机和平板电脑上的高效运行,为移动端 开拓了新的可能性。

技术特点与性能表现

MiniCPM-V4.5 采用轻量化设计思路,专为端侧设备优化。根据开发团队公布的测试数据,该模型在 OpenCompass 综合评估中获得 77.2 分的成绩,在同类开源模型中表现突出。模型支持单图理解、多图推理和视频分析等多种任务。

在移动设备部署方面,MiniCPM-V4.5 在 iPhone16ProMax 上的首 token 延迟约为 2 秒,解码速度超过每秒 17 个 token。模型通过 3D-Resampler 技术将视频数据压缩率提升至 96%,能够以 64 个 token 处理 6 帧视频内容,实现最高 10FPS 的实时视频理解。

光学字符识别是该模型的重点优化方向之一。基于 LLaVA-UHD 架构,模型支持高达 180 万像素的高分辨率图像处理,在 OCRBench 测试中准确率达到 85.7%。此外,模型支持包括英语、中文、德语、法语在内的 30 多种语言。

创新机制与技术架构

MiniCPM-V4.5 引入了可控混合思维机制,用户可通过参数设置在快速响应模式和深度推理模式间切换。快速模式适用于常规问答任务,深度模式则通过逐步推理处理复杂问题。

模型基于 RLAIF-V 和 VisCPM 技术进行训练,在减少幻觉现象方面有所改进。开发团队表示,这种训练方法提升了模型响应的准确性和可靠性。

开源生态与部署支持

MiniCPM-V4.5 采用 Apache-2.0 许可证发布,支持研究免费使用,商业应用需要简单注册程序。模型兼容多种推理框架,包括 llama.cpp、Ollama、vLLM 和 SGLang,并提供 16 种量化格式以适应不同硬件配置。

开发团队还发布了适配 iOS 的应用程序,方便用户在苹果设备上体验。开发者可通过 和 GitHub 获取模型代码和文档,支持通过 Gradio 搭建本地 Web 界面,也可在 NVIDIAGPU 上进行推理加速。

应用前景与局限性

作为专为移动端优化的多模态模型,MiniCPM-V4.5 在隐私敏感和离线使用场景中具有应用价值。模型的轻量化设计降低了 AI 能力的部署门槛,为个人用户和开发者提供了新的选择。

需要注意的是,受参数规模限制,该模型在处理极其复杂任务时可能存在性能边界。用户在实际应用中应根据具体需求选择合适的模型方案。开发团队提醒,模型生成内容基于训练数据,用户需确保使用合规并承担相应责任。

行业影响

MiniCPM-V4.5 的发布体现了开源 AI 社区在端侧部署方向的技术探索。随着移动设备计算能力的持续提升,这类轻量化多模态模型可能为 AI 应用的普及化提供新的技术路径。

该项目的开源特性也为研究人员和开发者提供了学习和改进的基础,有望推动端侧 的进一步发展。

项目地址:https://github.com/OpenBMB/MiniCPM-V

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

这个荒诞的网站藏着 30 个 AI 创意 但背后却藏着巨大风险

2025-9-2 1:20:32

AI 资讯

OpenAI 即将在印度建造超大型数据中心,或将引领 AI 技术新潮流

2025-9-2 1:20:50

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索