面壁智能 MiniCPM-V 4.6 发布开源：1.3B 参数仅需 6G 内存即可流畅运行

淘百科百科资讯 2026-05-13 20:07:20 2

5 月 13 日消息，5 月 11 日，面壁智能联合清华大学及 OpenBMB 开源社区正式发布并开源了新一代端侧多模态大模型 MiniCPM-V 4.6。

该模型参数规模为 1.3B，在端侧设备上仅需约 6GB 内存即可流畅运行，大幅降低了多模态 AI 在各类智能终端的落地门槛。

目前，MiniCPM-V 4.6 已在 GitHub 和 Hugging Face 等平台全面开源，并提供 Testflight 测试版本，可在 iOS、Android 和 HarmonyOS 等主流操作系统的手机上使用。

在性能表现方面，MiniCPM-V 4.6 在多个权威基准评测中展现出优于同尺寸主流模型的能力。

据介绍，它的 Instruct 和 Thinking 两个版本均在通用图文理解、STEM 数理推理、文档 OCR 及视频时序理解等任务上超越了 Qwen3.5-0.8B 和 Gemma4-E2B-it 等模型。

在最新的 Artificial Analysis 评测中，MiniCPM-V 4.6 以 13 分的成绩超越了 Ministral 3 3B 等更大尺寸的模型，整体能力接近 Qwen3.5-2B 级别。

在效率方面，MiniCPM-V 4.6 实现了“参数更大、效率更高”的反超。尽管参数规模比 Qwen3.5-0.8B 更大，但在基于 vLLM 框架的推理测试中，它的 Token 吞吐量达到前者的 1.5 倍，而计算 Token 消耗仅为后者的 2.5% 左右。

在 Artificial Analysis 评测中，1.3B 非推理版本仅消耗约 540 万 Token，仅为 Qwen3.5-0.8B 非推理版本的 1/19。这意味着开发者可以用同样的硬件承载更多的线上流量，或者在端侧实现更快的响应速度。

性能与效率的提升主要得益于两项技术创新：一是与清华大学联合研发的 LLaVA-UHD v4 架构，通过 ViT 内部视觉 Token“早压缩”技术，在保持性能的前提下将图像编码计算量降低了 55.8%；二是提供 4 倍和 16 倍混合视觉 Token 压缩模式，开发者可以根据应用场景在性能优先与速度优先之间灵活选择，兼顾高精度文档解析和低算力环境下的实时交互需求。

在高分辨率图像处理方面，MiniCPM-V 4.6 表现突出。处理 3132×3132 分辨率高清大图时，首字响应延迟仅约 75.7 毫秒，较同基座规模的 Qwen3.5-0.8B 快 2.2 倍。在高并发场景下，单张 RTX 4090 显卡每秒可处理 54.79 张 1344×1344 分辨率图片，处理吞吐量约为 Qwen3.5-0.8B 的 1.5 倍。

在开源生态支持方面，MiniCPM-V 4.6 提供了从微调到部署的完整工具链，已适配 ms-swift 和 LLaMA-Factory 等主流微调框架，并支持 vLLM、SGLang、llama.cpp 和 Ollama 等多个高性能推理框架。开发者只需一张 RTX 4090 等消费级显卡即可完成全流程微调。

注意到，MiniCPM-V 系列此前已在汽车、PC、手机和智能家居等多个终端场景实现规模化落地，合作伙伴涵盖联想、吉利、上汽大众等数十家行业头部企业。此次 MiniCPM-V 4.6 的开源，将进一步推动多模态大模型在端侧设备的应用效率。

参考资料：

Hugging Face：
https://huggingface.co/openbmb/MiniCPM-V-4.6
GitHub：
https://github.com/OpenBMB/MiniCPM-V
ModelScope：
https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
GitCode：
https://ai.gitcode.com/OpenBMB/MiniCPM-V-4.6
Web Demo：
https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
APP Demo：
https://github.com/OpenBMB/MiniCPM-V-Apps

本文地址： http://taodianjin.cn/37838.html

文章来源：淘百科