2026 年 5 月开源大模型一览:LLM、多模态、Agent 与本地部署怎么选
如果只用一句话概括 2026 年 5 月的开源模型市场,那就是:
1 | 开源模型已经不只是“便宜替代品”,而是在认真争夺生产环境。 |
这一轮变化很明显。
过去我们看开源模型,常常先问:
- 能不能跑起来?
- 中文行不行?
- 代码能力够不够?
- 和闭源模型差距还有多大?
到 2026 年 5 月,问题已经变了:
- 能不能稳定接工具?
- 能不能处理 128K、256K 甚至 1M 长上下文?
- 能不能在手机、Mac、工作站、私有 GPU 集群里部署?
- 许可证到底能不能商用?
- 多模态、语音、结构化抽取、代码 Agent 是否可以进入业务流程?
所以这篇文章不只列模型名。
本文会按开发者和企业真正关心的维度,把 2026 年 5 月前后值得关注的开源/开放权重模型做一次整理:
- 总表:模型、参数、上下文、许可证、适合场景
- 重点模型解读:哪些适合本地,哪些适合 Agent,哪些适合企业
- 选型建议:不同硬件、业务、许可证要求下怎么选
- 风险提醒:为什么“开放权重”不等于“可以随便商用”
说明:本文资料核对时间为 2026-06-08。AI 模型更新非常快,具体参数、许可证和部署方式请以官方模型卡为准。
一、先分清:开源、开放权重、可商用不是一回事
讨论开源模型之前,必须先把概念说清楚。
很多文章会把下面几类模型都叫“开源模型”:
1 | 开源模型 |
但它们不是一回事。
更准确地说:
| 类型 | 含义 | 重点风险 |
|---|---|---|
| 开源模型 | 权重、代码、许可证相对开放,常见如 Apache 2.0、MIT | 仍要看训练数据、商标、使用政策 |
| 开放权重模型 | 权重可以下载,但训练数据、训练代码、许可证可能有限制 | 不一定符合传统开源定义 |
| 可商用模型 | 许可证允许商业用途 | 可能有收入门槛、地域限制、再分发限制 |
| 本地可运行模型 | 能在本地或私有环境推理 | 不代表免费、低成本或可商用 |
一个很现实的例子是 Liquid AI 的 LFM Open License v1.0。
它基于 Apache 2.0 做了修改,允许研究和很多项目使用,但对商业使用设置了收入门槛:当公司年收入达到或超过 1000 万美元时,继续商用需要联系 Liquid AI 获取商业许可。
所以选模型时不要只看:
1 | Hugging Face 上能不能下载 |
还要看:
1 | license 字段、模型卡说明、商用限制、再分发条款、是否需要 trust_remote_code |
二、2026 年 5 月重点开源/开放权重模型总表
下面这张表按 2026 年 5 月前后公开、更新或成为社区重点关注的模型整理。
其中有些模型的仓库在 4 月底创建,但官方发布、模型更新或社区讨论主要集中在 5 月;也有个别模型在 5 月底上架、6 月初才正式发博客。表格里会单独标注。
| 模型 | 5 月状态 | 类型与规模 | 上下文 | 许可证 | 适合场景 | 入口 |
|---|---|---|---|---|---|---|
| Command A+ 05-2026 | 5 月发布 | 视觉语言 MoE,218B 总参数,25B 激活参数 | 128K 输入,64K 输出 | Apache 2.0 | 企业 Agent、多语言、工具调用、图文输入 | CohereLabs/command-a-plus-05-2026-bf16 |
| Step 3.7 Flash | 5 月发布 | 198B 稀疏 MoE 视觉语言模型,约 11B 激活参数 | 256K | Apache 2.0 | 高并发 Agent、视觉理解、代码工程、工具编排 | stepfun-ai/Step-3.7-Flash |
| MiniCPM-V 4.6 | 4 月上架,5 月开放 API 与持续更新 | 轻量多模态模型,SigLIP2-400M + Qwen3.5-0.8B | 以图片/视频任务配置为主 | Apache 2.0 | 手机端图像/视频理解、OCR、端侧多模态 | openbmb/MiniCPM-V-4.6 |
| MiMo-V2.5-Pro | 4 月底上架,5 月更新 | MoE,1.02T 总参数,42B 激活参数 | 1M | MIT | 长上下文 Agent、复杂软件工程、长任务执行 | XiaomiMiMo/MiMo-V2.5-Pro |
| Granite 4.1 | 4 月 29 日发布,5 月进入应用讨论 | 3B、8B、30B Dense 长上下文语言模型 | 131K | Apache 2.0 | 企业助手、RAG、工具调用、代码补全、可审计部署 | ibm-granite/granite-4.1-30b |
| LFM2.5-8B-A1B | 5 月发布 | 混合架构,8.3B 总参数,1.5B 激活参数 | 128K | LFM Open License v1.0 | 端侧助手、工具调用、结构化输出、低延迟推理 | LiquidAI/LFM2.5-8B-A1B |
| LFM2.5-VL Extract | 5 月发布 | 450M / 1.6B 级视觉抽取模型 | 128K | LFM Open License v1.0 | 图片字段抽取、商品属性识别、安全事件检测、JSON 输出 | LiquidAI/LFM2.5-VL-1.6B-Extract |
| LFM2.5-Audio-1.5B-JP | 5 月发布 | 1.5B 日语语音到语音模型 | 32K | LFM Open License v1.0 | 日语实时语音助手、ASR、TTS、语音对话 | LiquidAI/LFM2.5-Audio-1.5B-JP |
| Ring-2.6-1T | 5 月发布 | 1T 级推理模型 | 128K,可通过 YaRN 到 256K | MIT | 深度推理、复杂 Agent、企业自动化、科研分析 | inclusionAI/Ring-2.6-1T |
| Ling-2.6-1T | 4 月底上架,5 月更新 | 1T 级通用旗舰模型 | 约 256K 部署配置 | MIT | 编程、日常工作流、多步执行、工具调用 | inclusionAI/Ling-2.6-1T |
| Mellum2 | 5 月底上架,6 月初正式介绍 | JetBrains MoE,12B 总参数,2.5B 激活参数 | 131K | Apache 2.0 | 代码、IDE 工作流、长上下文文本生成、微调基座 | JetBrains/Mellum2-12B-A2.5B-Base |
从这张表可以看到一个趋势:
1 | 2026 年的开源模型竞争,已经从“参数越大越好”,变成了“能力、推理成本、上下文、许可证、部署生态一起竞争”。 |
三、最值得关注的几个方向
1. Agent 模型开始成为主线
5 月份最明显的关键词不是聊天,而是:
1 | Agent |
Command A+、Step 3.7 Flash、MiMo-V2.5-Pro、Ring-2.6-1T、Ling-2.6-1T 都在强调类似能力:
- 能不能稳定调用外部工具
- 能不能在多轮任务里不丢约束
- 能不能处理复杂工程仓库
- 能不能在长上下文里保持一致性
- 能不能把任务拆成步骤并持续推进
这说明开源模型正在从“问答模型”转向“执行模型”。
以前评估一个模型,常看 MMLU、GSM8K、HumanEval。
现在还要看:
- SWE-Bench 类代码修复任务
- BFCL 类函数调用任务
- Tau2-Bench 类业务流程任务
- ClawEval 类 Agent 安全与工具编排任务
- 长上下文检索、规划和一致性任务
如果你准备用开源模型做 AI 编程助手、自动化办公、私有知识库 Agent,单纯看通用榜单已经不够了。
更应该自己准备一组真实任务:
1 | 你的仓库 |
模型在这些数据上的表现,比公开榜单更有意义。
2. 长上下文成为默认卖点
2026 年 5 月的模型里,128K 已经不稀奇。
比较典型的是:
- Command A+:128K 输入
- Granite 4.1:131K
- LFM2.5-8B-A1B:128K
- Step 3.7 Flash:256K
- Ring-2.6-1T:128K 到 256K
- Ling-2.6-1T:部署示例中使用 262144 context length
- MiMo-V2.5-Pro:最高 1M
- Mellum2:131072
这对开发者很重要。
过去做 RAG 和代码 Agent,经常要把文档切得很碎,模型只看局部,再靠检索拼答案。
长上下文模型出现后,策略可以更灵活:
- 小项目可以直接塞更多源码
- 法务、财报、合同可以减少切片损失
- Agent 可以保留更长任务轨迹
- 多文件代码审查可以减少上下文切换
但长上下文不是免费的。
上下文越长,通常意味着:
- 首 token 延迟更高
- KV cache 更吃显存
- 推理成本更高
- 模型可能“看得到但用不好”
所以不要迷信 1M。
更实用的做法是:
1 | RAG 负责找对材料 |
3. MoE 成为大模型的主流工程路线
2026 年 5 月的许多重点模型都是 MoE。
例如:
- Command A+:218B 总参数,25B 激活参数
- Step 3.7 Flash:198B 总参数,约 11B 激活参数
- MiMo-V2.5-Pro:1.02T 总参数,42B 激活参数
- LFM2.5-8B-A1B:8.3B 总参数,1.5B 激活参数
- Mellum2:12B 总参数,2.5B 激活参数
MoE 的好处很直接:
1 | 总容量做大,但每个 token 只激活一部分专家。 |
这让模型在知识容量、推理速度和部署成本之间取得更好的平衡。
但 MoE 也带来新的复杂度:
- 权重下载体积仍然大
- 多 GPU 部署更复杂
- 专家并行、张量并行、流水线并行配置更讲究
- 量化和推理框架支持很关键
所以判断一个 MoE 模型能不能用,不要只看 active params。
还要看:
- 是否支持 vLLM、SGLang、llama.cpp、MLX
- 是否有 GGUF、FP8、W4A4、NVFP4 等量化版本
- 是否需要
trust_remote_code - 是否有稳定的 tokenizer 和 chat template
- 是否有官方部署示例
四、重点模型简评
Command A+ 05-2026:企业 Agent 和多语言场景的强选项
Command A+ 是 Cohere 在 2026 年 5 月发布的开放模型。
它的定位非常清晰:
1 | 企业、多语言、工具调用、视觉输入、推理任务。 |
模型规模为 218B 总参数、25B 激活参数,采用稀疏 MoE 架构,支持 128K 输入上下文和 64K 输出长度。
它的优势在于比较“企业化”:
- Apache 2.0 许可证
- 官方提供 BF16、FP8、W4A4 多种量化版本
- 模型卡明确说明工具调用能力
- 支持文本和图片输入
- 语言覆盖较广,包括中文、英文、日文、韩文、阿拉伯语等
如果你要做的是企业内部 Agent,比如:
- 内部知识库问答
- 多语言客服
- 文档分析
- 工具调用
- 图片加文本的业务流
Command A+ 值得进入候选列表。
但它并不是普通个人电脑能轻松跑的模型。官方给出的硬件示例里,BF16 版本需要多卡高端 GPU,推荐的 W4A4 量化版本也更偏数据中心环境。
Step 3.7 Flash:面向高频生产 Agent 的视觉语言模型
Step 3.7 Flash 的关键词是:
1 | 视觉语言、Agent、高吞吐、256K 上下文。 |
它是 198B 参数级稀疏 MoE 视觉语言模型,由 196B 语言骨干和 1.8B 视觉编码器组成,每 token 激活约 11B 参数。
这个模型的定位不是“本地小玩具”,而是面向高频生产负载:
- 视觉理解
- 搜索和验证
- 工具编排
- 多步 Agent
- 代码工程任务
- 长文档处理
它还有一个很实用的设计:可选推理强度。
开发者可以在低、中、高推理级别之间选择,用速度和成本换取不同深度的思考。
如果你要做的是:
- 图文混合 Agent
- 需要看 UI、图表、截图的自动化系统
- 高频工具调用工作流
- 需要私有部署的企业级 Agent
Step 3.7 Flash 是 5 月非常值得关注的一类模型。
MiniCPM-V 4.6:真正面向手机和端侧的多模态模型
MiniCPM-V 4.6 的特别之处在于:
1 | 它不是为了最大参数,而是为了端侧多模态。 |
它基于 SigLIP2-400M 和 Qwen3.5-0.8B,主打图片、视频理解和高效率视觉 token 压缩。
官方模型卡里非常强调三点:
- 支持 iOS、Android、HarmonyOS 三大端侧平台
- 支持图片、多图、视频理解
- 适配 vLLM、SGLang、llama.cpp、Ollama、SWIFT、LLaMA-Factory 等生态
这类模型适合的场景很具体:
- 手机端 OCR
- 拍照问答
- 视频片段理解
- 轻量图像质检
- 票据、表单、手写内容识别
- 端侧多模态 Demo 和原型
如果你的目标是“在手机或边缘设备上跑”,MiniCPM-V 4.6 比那些 100B 以上模型更现实。
MiMo-V2.5-Pro:长上下文 Agent 和复杂软件工程
MiMo-V2.5-Pro 是小米 MiMo 团队发布的 1T 级 MoE 模型。
它的参数结构很激进:
- 1.02T 总参数
- 42B 激活参数
- 1M 上下文
- MIT 许可证
- 面向 Agent、复杂软件工程和长周期任务
它的关键价值不是“能聊”,而是“能长时间执行”。
比如复杂软件工程场景中,模型要做的不只是生成一个函数,而是:
- 读 issue
- 找相关文件
- 规划修改
- 调用工具
- 生成 patch
- 根据测试失败继续修
- 在长任务里保持目标一致
MiMo-V2.5-Pro 就是往这个方向设计的。
不过它的部署门槛也非常高。
1T 级模型即使用 MoE,也不是普通单卡或笔记本能轻松运行的。更适合有多 GPU 集群、需要私有化强能力 Agent 的团队关注。
Granite 4.1:企业可控、许可证清晰的稳健路线
IBM Granite 4.1 不是 5 月才出现的模型,它在 2026 年 4 月 29 日发布,但 5 月进入了更多应用讨论。
它的优势不是参数最大,而是:
1 | 企业友好、许可证清晰、规模选择稳健。 |
Granite 4.1 语言模型包括 3B、8B、30B 等尺寸,均为 Apache 2.0。
适合的场景包括:
- 企业助手
- 文档摘要
- RAG
- 文本分类
- 信息抽取
- 函数调用
- 代码补全
- 多语言对话
如果你在企业里做 AI 落地,Granite 这种模型的价值很高。
它可能不是所有榜单第一,但在许可证、模型家族、部署文档、企业集成、可审计性方面更稳。
很多时候,企业选模型并不是选“最聪明的那个”,而是选:
1 | 能力足够、风险可控、部署稳定、许可证清楚的那个。 |
LFM2.5-8B-A1B:端侧助手和低延迟工具调用
Liquid AI 的 LFM2.5-8B-A1B 是 5 月底非常有代表性的“小激活参数”模型。
它的规模是:
- 8.3B 总参数
- 1.5B 激活参数
- 128K 上下文
- 支持工具调用
- 支持 llama.cpp、MLX、vLLM、SGLang
这个模型的重点不是用来挑战最强闭源模型,而是解决一个更现实的问题:
1 | 如何在本地、边缘设备或低成本服务里跑一个可用的智能助手。 |
适合场景包括:
- 个人本地助手
- 结构化输出
- 多语言轻量问答
- 工具调用
- 低延迟工作流
- Apple Silicon 或本地桌面推理
但要注意许可证。
LFM 系列使用 LFM Open License v1.0,不是标准 Apache 2.0 或 MIT。个人、研究、小团队原型通常问题不大,但企业商用前一定要读完整许可证。
LFM2.5-VL Extract:不是聊天,而是视觉结构化抽取
LFM2.5-VL Extract 很有意思,因为它不试图做一个万能视觉语言助手。
它的目标很明确:
1 | 从图片中按字段抽取信息,并返回 JSON。 |
这类模型对业务非常实用。
比如你可以定义:
1 | brand: 商品品牌 |
然后让模型从图片里返回结构化 JSON。
这比自由问答更适合接进生产系统。
适合场景包括:
- 电商商品属性抽取
- 图片审核前置分类
- 工业质检字段抽取
- 安防事件识别
- 表单或票据图像结构化
如果你的任务不是“让模型聊天”,而是“让模型稳定输出字段”,这类小模型反而比大而全的模型更容易落地。
Ring-2.6-1T 与 Ling-2.6-1T:1T 级 Agent 和推理模型路线
inclusionAI 在 5 月前后连续推出 Ling-2.6-1T 和 Ring-2.6-1T。
这两类模型都指向一个趋势:
1 | 开源阵营正在把 1T 级模型推向真实 Agent 工作流。 |
Ling-2.6-1T 更强调:
- 编程
- 日常工作流
- 快速思考
- 多步执行
- 工具调用
Ring-2.6-1T 更强调:
- 深度推理
- 高强度 reasoning effort
- 企业自动化
- 科研分析
- 复杂任务执行
从许可证看,两者都是 MIT。
从部署看,它们更适合高端 GPU 环境或通过第三方推理服务使用。
如果你是个人开发者,这类模型更适合拿来做能力参考或 API 测试;如果你是企业或研究团队,它们才更可能进入私有部署评估。
Mellum2:代码和 IDE 工作流的边界项
Mellum2 是 JetBrains 的 MoE 模型,模型仓库在 2026 年 5 月底创建,官方博客在 6 月 1 日发布。
严格按“5 月新闻”算,它属于边界项;但按“5 月底开源模型观察”算,它值得放进表里。
它的特点是:
- 12B 总参数,2.5B 激活参数
- 64 个专家,每 token 激活 8 个
- 131072 上下文
- Apache 2.0
- 提供 Base、Instruct、Thinking 等变体
JetBrains 的背景决定了 Mellum2 很适合关注代码、IDE、工程工作流的人。
它未必是最大模型,但“工具厂商自己做模型”这件事很值得看。
未来 AI 编程不会只比模型本身,还会比:
- IDE 集成
- 代码索引
- 上下文管理
- Patch 应用
- 测试反馈
- 多工具协作
Mellum2 更像是这个方向上的基础积木。
五、如果你要选模型,可以这样判断
1. 本地电脑或个人开发者
优先看:
- LFM2.5-8B-A1B
- MiniCPM-V 4.6
- LFM2.5-VL Extract
- Mellum2 的量化版本或小规模变体
原因很简单:
1 | 能跑起来,才有调试价值。 |
个人开发者不要一上来就追 1T 模型。
更好的路线是:
- 用小模型跑通工作流
- 用真实数据做评测
- 确认瓶颈是模型能力而不是工程问题
- 再换更大模型或接 API
2. 企业内部知识库和 RAG
优先看:
- Granite 4.1
- Command A+
- LFM2.5-8B-A1B
- Step 3.7 Flash
如果许可证和可审计性很重要,Apache 2.0 的 Granite、Command A+、Step 3.7 Flash 会更容易推进。
如果成本和本地化更重要,小模型加 RAG 往往比超大模型裸跑更划算。
RAG 场景里,模型能力只是一部分。
更关键的是:
- 文档切分
- 向量召回
- 重排
- 引用溯源
- 权限控制
- 答案拒答策略
- 日志审计
模型再强,如果检索材料错了,答案也会跟着错。
3. AI 编程和代码 Agent
优先看:
- MiMo-V2.5-Pro
- Ling-2.6-1T
- Ring-2.6-1T
- Step 3.7 Flash
- Mellum2
- Granite 4.1
代码 Agent 不只是补全代码。
真正难的是:
- 理解项目结构
- 在多文件之间定位问题
- 生成可运行 patch
- 根据测试失败迭代
- 不破坏现有行为
- 遵守项目风格和约束
因此评测时不要只问 HumanEval。
更应该准备自己的测试集:
1 | 10 个真实 issue |
让模型在你的仓库里跑,结果会比公开榜单更诚实。
4. 多模态、图片、视频、语音
如果是图文重模型:
- Command A+
- Step 3.7 Flash
如果是端侧图像和视频:
- MiniCPM-V 4.6
如果是图片字段抽取:
- LFM2.5-VL Extract
如果是日语语音对话:
- LFM2.5-Audio-1.5B-JP
多模态模型要特别注意输入类型。
有的模型适合通用视觉问答,有的适合 OCR,有的适合视频,有的适合结构化抽取,有的适合语音到语音。
不要只看“支持多模态”四个字。
要看:
1 | 输入是什么 |
六、2026 年 5 月开源模型的几个趋势
趋势一:许可证成为竞争力
Apache 2.0 和 MIT 仍然最受开发者欢迎。
因为它们简单、清楚、容易进入企业采购和法务流程。
定制许可证不是不能用,但企业必须提前评估:
- 收入门槛
- 商用限制
- 再分发限制
- 衍生模型归属
- 是否允许托管服务
- 是否允许用于训练其他模型
模型能力强是一回事,能不能放心上线是另一回事。
趋势二:小模型越来越像产品,而不是玩具
MiniCPM-V 4.6、LFM2.5-8B-A1B、LFM2.5-VL Extract 这类模型说明:
1 | 小模型不再只是大模型的缩水版,而是在特定任务里做产品化优化。 |
手机端、多模态抽取、语音交互、低延迟工具调用,这些场景并不总是需要最强通用模型。
很多业务只需要:
- 输出稳定
- 延迟低
- 成本低
- 格式可控
- 能微调
- 能私有部署
小模型在这些场景里反而更合适。
趋势三:开源模型正在逼近“系统工程”
2026 年的开源模型不是一个 .safetensors 文件就结束了。
真正可用的模型通常还需要:
- tokenizer
- chat template
- tool parser
- reasoning parser
- vLLM / SGLang 支持
- GGUF / MLX / ONNX 版本
- 量化方案
- 部署文档
- 评测脚本
- 示例代码
模型发布正在变成完整工程包发布。
这对开发者是好事。
因为你不用只盯论文,也可以直接看:
1 | 它有没有官方部署方式 |
七、我的选型建议
如果你现在就要选模型,我会这样建议。
| 需求 | 优先考虑 |
|---|---|
| 本地轻量助手 | LFM2.5-8B-A1B、MiniCPM-V 4.6 |
| 企业 RAG 和文本助手 | Granite 4.1、Command A+ |
| 图文 Agent | Step 3.7 Flash、Command A+ |
| 手机端视觉理解 | MiniCPM-V 4.6 |
| 图片结构化抽取 | LFM2.5-VL Extract |
| 长上下文代码 Agent | MiMo-V2.5-Pro、Ling-2.6-1T、Ring-2.6-1T |
| 许可证优先 | Apache 2.0 或 MIT 模型,如 Granite、Command A+、Step、MiMo、Ling、Ring、Mellum2 |
| 代码和 IDE 生态观察 | Mellum2、Granite 4.1、MiMo、Ling |
如果只想先试一个模型:
1 | 个人本地:先试 LFM2.5-8B-A1B 或 MiniCPM-V 4.6 |
八、结语
2026 年 5 月的开源模型生态,最重要的变化不是“又多了几个大模型”。
真正重要的是:
1 | 开源模型开始覆盖从端侧设备到企业集群,从文本到图像、视频、语音,从聊天到工具调用和 Agent 执行的完整链条。 |
这对开发者是一次很好的机会。
因为你不再只能在闭源 API 和低质量本地模型之间二选一。
你可以根据自己的场景组合:
- 小模型做端侧
- 中模型做 RAG
- 大模型做复杂 Agent
- 专用模型做结构化抽取
- 开源推理框架做私有部署
但也要保持清醒。
模型名越来越多,榜单越来越多,参数也越来越夸张。
最终真正有用的选择标准仍然很朴素:
1 | 能否解决你的真实问题 |
把这五点想清楚,再看模型表,选择就会简单很多。
参考资料
- CohereLabs/command-a-plus-05-2026-bf16
- stepfun-ai/Step-3.7-Flash
- openbmb/MiniCPM-V-4.6
- XiaomiMiMo/MiMo-V2.5-Pro
- ibm-granite/granite-4.1-30b
- IBM Research:Introducing the IBM Granite 4.1 family of models
- LiquidAI/LFM2.5-8B-A1B
- LiquidAI/LFM2.5-VL-1.6B-Extract
- LiquidAI/LFM2.5-Audio-1.5B-JP
- Liquid AI:LFM Open License v1.0
- inclusionAI/Ring-2.6-1T
- inclusionAI/Ling-2.6-1T
- JetBrains/Mellum2-12B-A2.5B-Base
- JetBrains AI Blog:Mellum2 Goes Open Source