面壁智能 MiniCPM-V 4.6 发布开源:1.3B 参数仅需 6G 内存即可流畅运行

淘百科 百科资讯 2

5 月 13 日消息,5 月 11 日,面壁智能联合清华大学及 OpenBMB 开源社区正式发布并开源了新一代端侧多模态大模型 MiniCPM-V 4.6。

该模型参数规模为 1.3B,在端侧设备上仅需约 6GB 内存即可流畅运行,大幅降低了多模态 AI 在各类智能终端的落地门槛。

目前,MiniCPM-V 4.6 已在 GitHub 和 Hugging Face 等平台全面开源,并提供 Testflight 测试版本,可在 iOS、Android 和 HarmonyOS 等主流操作系统的手机上使用。

在性能表现方面,MiniCPM-V 4.6 在多个权威基准评测中展现出优于同尺寸主流模型的能力。

据介绍,它的 Instruct 和 Thinking 两个版本均在通用图文理解、STEM 数理推理、文档 OCR 及视频时序理解等任务上超越了 Qwen3.5-0.8B 和 Gemma4-E2B-it 等模型。

在最新的 Artificial Analysis 评测中,MiniCPM-V 4.6 以 13 分的成绩超越了 Ministral 3 3B 等更大尺寸的模型,整体能力接近 Qwen3.5-2B 级别。

在效率方面,MiniCPM-V 4.6 实现了“参数更大、效率更高”的反超。尽管参数规模比 Qwen3.5-0.8B 更大,但在基于 vLLM 框架的推理测试中,它的 Token 吞吐量达到前者的 1.5 倍,而计算 Token 消耗仅为后者的 2.5% 左右。

在 Artificial Analysis 评测中,1.3B 非推理版本仅消耗约 540 万 Token,仅为 Qwen3.5-0.8B 非推理版本的 1/19。这意味着开发者可以用同样的硬件承载更多的线上流量,或者在端侧实现更快的响应速度。

性能与效率的提升主要得益于两项技术创新:一是与清华大学联合研发的 LLaVA-UHD v4 架构,通过 ViT 内部视觉 Token“早压缩”技术,在保持性能的前提下将图像编码计算量降低了 55.8%;二是提供 4 倍和 16 倍混合视觉 Token 压缩模式,开发者可以根据应用场景在性能优先与速度优先之间灵活选择,兼顾高精度文档解析和低算力环境下的实时交互需求。

在高分辨率图像处理方面,MiniCPM-V 4.6 表现突出。处理 3132×3132 分辨率高清大图时,首字响应延迟仅约 75.7 毫秒,较同基座规模的 Qwen3.5-0.8B 快 2.2 倍。在高并发场景下,单张 RTX 4090 显卡每秒可处理 54.79 张 1344×1344 分辨率图片,处理吞吐量约为 Qwen3.5-0.8B 的 1.5 倍。

在开源生态支持方面,MiniCPM-V 4.6 提供了从微调到部署的完整工具链,已适配 ms-swift 和 LLaMA-Factory 等主流微调框架,并支持 vLLM、SGLang、llama.cpp 和 Ollama 等多个高性能推理框架。开发者只需一张 RTX 4090 等消费级显卡即可完成全流程微调。

注意到,MiniCPM-V 系列此前已在汽车、PC、手机和智能家居等多个终端场景实现规模化落地,合作伙伴涵盖联想、吉利、上汽大众等数十家行业头部企业。此次 MiniCPM-V 4.6 的开源,将进一步推动多模态大模型在端侧设备的应用效率。

参考资料:

  • Hugging Face:
    https://huggingface.co/openbmb/MiniCPM-V-4.6

  • GitHub:
    https://github.com/OpenBMB/MiniCPM-V

  • ModelScope:
    https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6

  • GitCode:
    https://ai.gitcode.com/OpenBMB/MiniCPM-V-4.6

  • Web Demo:
    https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo

  • APP Demo:
    https://github.com/OpenBMB/MiniCPM-V-Apps