2026 年 5 月开源大模型一览：LLM、多模态、Agent 与本地部署怎么选

如果只用一句话概括 2026 年 5 月的开源模型市场，那就是：

1	开源模型已经不只是“便宜替代品”，而是在认真争夺生产环境。

这一轮变化很明显。

过去我们看开源模型，常常先问：

能不能跑起来？
中文行不行？
代码能力够不够？
和闭源模型差距还有多大？

到 2026 年 5 月，问题已经变了：

能不能稳定接工具？
能不能处理 128K、256K 甚至 1M 长上下文？
能不能在手机、Mac、工作站、私有 GPU 集群里部署？
许可证到底能不能商用？
多模态、语音、结构化抽取、代码 Agent 是否可以进入业务流程？

所以这篇文章不只列模型名。

本文会按开发者和企业真正关心的维度，把 2026 年 5 月前后值得关注的开源/开放权重模型做一次整理：

总表：模型、参数、上下文、许可证、适合场景
重点模型解读：哪些适合本地，哪些适合 Agent，哪些适合企业
选型建议：不同硬件、业务、许可证要求下怎么选
风险提醒：为什么“开放权重”不等于“可以随便商用”

说明：本文资料核对时间为 2026-06-08。AI 模型更新非常快，具体参数、许可证和部署方式请以官方模型卡为准。

一、先分清：开源、开放权重、可商用不是一回事

讨论开源模型之前，必须先把概念说清楚。

很多文章会把下面几类模型都叫“开源模型”：

开源模型
开放权重模型
可下载模型
可商用模型

但它们不是一回事。

更准确地说：

类型	含义	重点风险
开源模型	权重、代码、许可证相对开放，常见如 Apache 2.0、MIT	仍要看训练数据、商标、使用政策
开放权重模型	权重可以下载，但训练数据、训练代码、许可证可能有限制	不一定符合传统开源定义
可商用模型	许可证允许商业用途	可能有收入门槛、地域限制、再分发限制
本地可运行模型	能在本地或私有环境推理	不代表免费、低成本或可商用

一个很现实的例子是 Liquid AI 的 LFM Open License v1.0。

它基于 Apache 2.0 做了修改，允许研究和很多项目使用，但对商业使用设置了收入门槛：当公司年收入达到或超过 1000 万美元时，继续商用需要联系 Liquid AI 获取商业许可。

所以选模型时不要只看：

1	Hugging Face 上能不能下载

还要看：

1	license 字段、模型卡说明、商用限制、再分发条款、是否需要 trust_remote_code

二、2026 年 5 月重点开源/开放权重模型总表

下面这张表按 2026 年 5 月前后公开、更新或成为社区重点关注的模型整理。

其中有些模型的仓库在 4 月底创建，但官方发布、模型更新或社区讨论主要集中在 5 月；也有个别模型在 5 月底上架、6 月初才正式发博客。表格里会单独标注。

模型	5 月状态	类型与规模	上下文	许可证	适合场景	入口
Command A+ 05-2026	5 月发布	视觉语言 MoE，218B 总参数，25B 激活参数	128K 输入，64K 输出	Apache 2.0	企业 Agent、多语言、工具调用、图文输入	CohereLabs/command-a-plus-05-2026-bf16
Step 3.7 Flash	5 月发布	198B 稀疏 MoE 视觉语言模型，约 11B 激活参数	256K	Apache 2.0	高并发 Agent、视觉理解、代码工程、工具编排	stepfun-ai/Step-3.7-Flash
MiniCPM-V 4.6	4 月上架，5 月开放 API 与持续更新	轻量多模态模型，SigLIP2-400M + Qwen3.5-0.8B	以图片/视频任务配置为主	Apache 2.0	手机端图像/视频理解、OCR、端侧多模态	openbmb/MiniCPM-V-4.6
MiMo-V2.5-Pro	4 月底上架，5 月更新	MoE，1.02T 总参数，42B 激活参数	1M	MIT	长上下文 Agent、复杂软件工程、长任务执行	XiaomiMiMo/MiMo-V2.5-Pro
Granite 4.1	4 月 29 日发布，5 月进入应用讨论	3B、8B、30B Dense 长上下文语言模型	131K	Apache 2.0	企业助手、RAG、工具调用、代码补全、可审计部署	ibm-granite/granite-4.1-30b
LFM2.5-8B-A1B	5 月发布	混合架构，8.3B 总参数，1.5B 激活参数	128K	LFM Open License v1.0	端侧助手、工具调用、结构化输出、低延迟推理	LiquidAI/LFM2.5-8B-A1B
LFM2.5-VL Extract	5 月发布	450M / 1.6B 级视觉抽取模型	128K	LFM Open License v1.0	图片字段抽取、商品属性识别、安全事件检测、JSON 输出	LiquidAI/LFM2.5-VL-1.6B-Extract
LFM2.5-Audio-1.5B-JP	5 月发布	1.5B 日语语音到语音模型	32K	LFM Open License v1.0	日语实时语音助手、ASR、TTS、语音对话	LiquidAI/LFM2.5-Audio-1.5B-JP
Ring-2.6-1T	5 月发布	1T 级推理模型	128K，可通过 YaRN 到 256K	MIT	深度推理、复杂 Agent、企业自动化、科研分析	inclusionAI/Ring-2.6-1T
Ling-2.6-1T	4 月底上架，5 月更新	1T 级通用旗舰模型	约 256K 部署配置	MIT	编程、日常工作流、多步执行、工具调用	inclusionAI/Ling-2.6-1T
Mellum2	5 月底上架，6 月初正式介绍	JetBrains MoE，12B 总参数，2.5B 激活参数	131K	Apache 2.0	代码、IDE 工作流、长上下文文本生成、微调基座	JetBrains/Mellum2-12B-A2.5B-Base

从这张表可以看到一个趋势：

1	2026 年的开源模型竞争，已经从“参数越大越好”，变成了“能力、推理成本、上下文、许可证、部署生态一起竞争”。

三、最值得关注的几个方向

1. Agent 模型开始成为主线

5 月份最明显的关键词不是聊天，而是：

Agent
Tool Use
Function Calling
Long-horizon Tasks

Command A+、Step 3.7 Flash、MiMo-V2.5-Pro、Ring-2.6-1T、Ling-2.6-1T 都在强调类似能力：

能不能稳定调用外部工具
能不能在多轮任务里不丢约束
能不能处理复杂工程仓库
能不能在长上下文里保持一致性
能不能把任务拆成步骤并持续推进

这说明开源模型正在从“问答模型”转向“执行模型”。

以前评估一个模型，常看 MMLU、GSM8K、HumanEval。

现在还要看：

SWE-Bench 类代码修复任务
BFCL 类函数调用任务
Tau2-Bench 类业务流程任务
ClawEval 类 Agent 安全与工具编排任务
长上下文检索、规划和一致性任务

如果你准备用开源模型做 AI 编程助手、自动化办公、私有知识库 Agent，单纯看通用榜单已经不够了。

更应该自己准备一组真实任务：

你的仓库
你的文档
你的接口
你的业务规则
你的失败样例

模型在这些数据上的表现，比公开榜单更有意义。

2. 长上下文成为默认卖点

2026 年 5 月的模型里，128K 已经不稀奇。

比较典型的是：

Command A+：128K 输入
Granite 4.1：131K
LFM2.5-8B-A1B：128K
Step 3.7 Flash：256K
Ring-2.6-1T：128K 到 256K
Ling-2.6-1T：部署示例中使用 262144 context length
MiMo-V2.5-Pro：最高 1M
Mellum2：131072

这对开发者很重要。

过去做 RAG 和代码 Agent，经常要把文档切得很碎，模型只看局部，再靠检索拼答案。

长上下文模型出现后，策略可以更灵活：

小项目可以直接塞更多源码
法务、财报、合同可以减少切片损失
Agent 可以保留更长任务轨迹
多文件代码审查可以减少上下文切换

但长上下文不是免费的。

上下文越长，通常意味着：

首 token 延迟更高
KV cache 更吃显存
推理成本更高
模型可能“看得到但用不好”

所以不要迷信 1M。

更实用的做法是：

RAG 负责找对材料
长上下文负责保留关键证据
Prompt 负责压缩任务目标
评测负责发现模型是否真的用到了上下文

3. MoE 成为大模型的主流工程路线

2026 年 5 月的许多重点模型都是 MoE。

例如：

Command A+：218B 总参数，25B 激活参数
Step 3.7 Flash：198B 总参数，约 11B 激活参数
MiMo-V2.5-Pro：1.02T 总参数，42B 激活参数
LFM2.5-8B-A1B：8.3B 总参数，1.5B 激活参数
Mellum2：12B 总参数，2.5B 激活参数

MoE 的好处很直接：

1	总容量做大，但每个 token 只激活一部分专家。

这让模型在知识容量、推理速度和部署成本之间取得更好的平衡。

但 MoE 也带来新的复杂度：

权重下载体积仍然大
多 GPU 部署更复杂
专家并行、张量并行、流水线并行配置更讲究
量化和推理框架支持很关键

所以判断一个 MoE 模型能不能用，不要只看 active params。

还要看：

是否支持 vLLM、SGLang、llama.cpp、MLX
是否有 GGUF、FP8、W4A4、NVFP4 等量化版本
是否需要 trust_remote_code
是否有稳定的 tokenizer 和 chat template
是否有官方部署示例

四、重点模型简评

Command A+ 05-2026：企业 Agent 和多语言场景的强选项

Command A+ 是 Cohere 在 2026 年 5 月发布的开放模型。

它的定位非常清晰：

1	企业、多语言、工具调用、视觉输入、推理任务。

模型规模为 218B 总参数、25B 激活参数，采用稀疏 MoE 架构，支持 128K 输入上下文和 64K 输出长度。

它的优势在于比较“企业化”：

Apache 2.0 许可证
官方提供 BF16、FP8、W4A4 多种量化版本
模型卡明确说明工具调用能力
支持文本和图片输入
语言覆盖较广，包括中文、英文、日文、韩文、阿拉伯语等

如果你要做的是企业内部 Agent，比如：

内部知识库问答
多语言客服
文档分析
工具调用
图片加文本的业务流

Command A+ 值得进入候选列表。

但它并不是普通个人电脑能轻松跑的模型。官方给出的硬件示例里，BF16 版本需要多卡高端 GPU，推荐的 W4A4 量化版本也更偏数据中心环境。

Step 3.7 Flash：面向高频生产 Agent 的视觉语言模型

Step 3.7 Flash 的关键词是：

1	视觉语言、Agent、高吞吐、256K 上下文。

它是 198B 参数级稀疏 MoE 视觉语言模型，由 196B 语言骨干和 1.8B 视觉编码器组成，每 token 激活约 11B 参数。

这个模型的定位不是“本地小玩具”，而是面向高频生产负载：

视觉理解
搜索和验证
工具编排
多步 Agent
代码工程任务
长文档处理

它还有一个很实用的设计：可选推理强度。

开发者可以在低、中、高推理级别之间选择，用速度和成本换取不同深度的思考。

如果你要做的是：

图文混合 Agent
需要看 UI、图表、截图的自动化系统
高频工具调用工作流
需要私有部署的企业级 Agent

Step 3.7 Flash 是 5 月非常值得关注的一类模型。

MiniCPM-V 4.6：真正面向手机和端侧的多模态模型

MiniCPM-V 4.6 的特别之处在于：

1	它不是为了最大参数，而是为了端侧多模态。

它基于 SigLIP2-400M 和 Qwen3.5-0.8B，主打图片、视频理解和高效率视觉 token 压缩。

官方模型卡里非常强调三点：

支持 iOS、Android、HarmonyOS 三大端侧平台
支持图片、多图、视频理解
适配 vLLM、SGLang、llama.cpp、Ollama、SWIFT、LLaMA-Factory 等生态

这类模型适合的场景很具体：

手机端 OCR
拍照问答
视频片段理解
轻量图像质检
票据、表单、手写内容识别
端侧多模态 Demo 和原型

如果你的目标是“在手机或边缘设备上跑”，MiniCPM-V 4.6 比那些 100B 以上模型更现实。

MiMo-V2.5-Pro：长上下文 Agent 和复杂软件工程

MiMo-V2.5-Pro 是小米 MiMo 团队发布的 1T 级 MoE 模型。

它的参数结构很激进：

1.02T 总参数
42B 激活参数
1M 上下文
MIT 许可证
面向 Agent、复杂软件工程和长周期任务

它的关键价值不是“能聊”，而是“能长时间执行”。

比如复杂软件工程场景中，模型要做的不只是生成一个函数，而是：

读 issue
找相关文件
规划修改
调用工具
生成 patch
根据测试失败继续修
在长任务里保持目标一致

MiMo-V2.5-Pro 就是往这个方向设计的。

不过它的部署门槛也非常高。

1T 级模型即使用 MoE，也不是普通单卡或笔记本能轻松运行的。更适合有多 GPU 集群、需要私有化强能力 Agent 的团队关注。

Granite 4.1：企业可控、许可证清晰的稳健路线

IBM Granite 4.1 不是 5 月才出现的模型，它在 2026 年 4 月 29 日发布，但 5 月进入了更多应用讨论。

它的优势不是参数最大，而是：

1	企业友好、许可证清晰、规模选择稳健。

Granite 4.1 语言模型包括 3B、8B、30B 等尺寸，均为 Apache 2.0。

适合的场景包括：

企业助手
文档摘要
RAG
文本分类
信息抽取
函数调用
代码补全
多语言对话

如果你在企业里做 AI 落地，Granite 这种模型的价值很高。

它可能不是所有榜单第一，但在许可证、模型家族、部署文档、企业集成、可审计性方面更稳。

很多时候，企业选模型并不是选“最聪明的那个”，而是选：

1	能力足够、风险可控、部署稳定、许可证清楚的那个。

LFM2.5-8B-A1B：端侧助手和低延迟工具调用

Liquid AI 的 LFM2.5-8B-A1B 是 5 月底非常有代表性的“小激活参数”模型。

它的规模是：

8.3B 总参数
1.5B 激活参数
128K 上下文
支持工具调用
支持 llama.cpp、MLX、vLLM、SGLang

这个模型的重点不是用来挑战最强闭源模型，而是解决一个更现实的问题：

1	如何在本地、边缘设备或低成本服务里跑一个可用的智能助手。

适合场景包括：

个人本地助手
结构化输出
多语言轻量问答
工具调用
低延迟工作流
Apple Silicon 或本地桌面推理

但要注意许可证。

LFM 系列使用 LFM Open License v1.0，不是标准 Apache 2.0 或 MIT。个人、研究、小团队原型通常问题不大，但企业商用前一定要读完整许可证。

LFM2.5-VL Extract：不是聊天，而是视觉结构化抽取

LFM2.5-VL Extract 很有意思，因为它不试图做一个万能视觉语言助手。

它的目标很明确：

1	从图片中按字段抽取信息，并返回 JSON。

这类模型对业务非常实用。

比如你可以定义：

brand: 商品品牌
color: 商品颜色
material: 商品材质
defect: 是否存在明显缺陷

然后让模型从图片里返回结构化 JSON。

这比自由问答更适合接进生产系统。

适合场景包括：

电商商品属性抽取
图片审核前置分类
工业质检字段抽取
安防事件识别
表单或票据图像结构化

如果你的任务不是“让模型聊天”，而是“让模型稳定输出字段”，这类小模型反而比大而全的模型更容易落地。

Ring-2.6-1T 与 Ling-2.6-1T：1T 级 Agent 和推理模型路线

inclusionAI 在 5 月前后连续推出 Ling-2.6-1T 和 Ring-2.6-1T。

这两类模型都指向一个趋势：

1	开源阵营正在把 1T 级模型推向真实 Agent 工作流。

Ling-2.6-1T 更强调：

编程
日常工作流
快速思考
多步执行
工具调用

Ring-2.6-1T 更强调：

深度推理
高强度 reasoning effort
企业自动化
科研分析
复杂任务执行

从许可证看，两者都是 MIT。

从部署看，它们更适合高端 GPU 环境或通过第三方推理服务使用。

如果你是个人开发者，这类模型更适合拿来做能力参考或 API 测试；如果你是企业或研究团队，它们才更可能进入私有部署评估。

Mellum2：代码和 IDE 工作流的边界项

Mellum2 是 JetBrains 的 MoE 模型，模型仓库在 2026 年 5 月底创建，官方博客在 6 月 1 日发布。

严格按“5 月新闻”算，它属于边界项；但按“5 月底开源模型观察”算，它值得放进表里。

它的特点是：

12B 总参数，2.5B 激活参数
64 个专家，每 token 激活 8 个
131072 上下文
Apache 2.0
提供 Base、Instruct、Thinking 等变体

JetBrains 的背景决定了 Mellum2 很适合关注代码、IDE、工程工作流的人。

它未必是最大模型，但“工具厂商自己做模型”这件事很值得看。

未来 AI 编程不会只比模型本身，还会比：

IDE 集成
代码索引
上下文管理
Patch 应用
测试反馈
多工具协作

Mellum2 更像是这个方向上的基础积木。

五、如果你要选模型，可以这样判断

1. 本地电脑或个人开发者

优先看：

LFM2.5-8B-A1B
MiniCPM-V 4.6
LFM2.5-VL Extract
Mellum2 的量化版本或小规模变体

原因很简单：

1	能跑起来，才有调试价值。

个人开发者不要一上来就追 1T 模型。

更好的路线是：

用小模型跑通工作流
用真实数据做评测
确认瓶颈是模型能力而不是工程问题
再换更大模型或接 API

2. 企业内部知识库和 RAG

优先看：

Granite 4.1
Command A+
LFM2.5-8B-A1B
Step 3.7 Flash

如果许可证和可审计性很重要，Apache 2.0 的 Granite、Command A+、Step 3.7 Flash 会更容易推进。

如果成本和本地化更重要，小模型加 RAG 往往比超大模型裸跑更划算。

RAG 场景里，模型能力只是一部分。

更关键的是：

文档切分
向量召回
重排
引用溯源
权限控制
答案拒答策略
日志审计

模型再强，如果检索材料错了，答案也会跟着错。

3. AI 编程和代码 Agent

优先看：

MiMo-V2.5-Pro
Ling-2.6-1T
Ring-2.6-1T
Step 3.7 Flash
Mellum2
Granite 4.1

代码 Agent 不只是补全代码。

真正难的是：

理解项目结构
在多文件之间定位问题
生成可运行 patch
根据测试失败迭代
不破坏现有行为
遵守项目风格和约束

因此评测时不要只问 HumanEval。

更应该准备自己的测试集：

10 个真实 issue
10 个历史 bug
10 个需要跨文件修改的任务
10 个容易误改的边界场景

让模型在你的仓库里跑，结果会比公开榜单更诚实。

4. 多模态、图片、视频、语音

如果是图文重模型：

Command A+
Step 3.7 Flash

如果是端侧图像和视频：

MiniCPM-V 4.6

如果是图片字段抽取：

LFM2.5-VL Extract

如果是日语语音对话：

LFM2.5-Audio-1.5B-JP

多模态模型要特别注意输入类型。

有的模型适合通用视觉问答，有的适合 OCR，有的适合视频，有的适合结构化抽取，有的适合语音到语音。

不要只看“支持多模态”四个字。

要看：

输入是什么
输出是什么
是否支持多图
是否支持视频
是否支持流式音频
是否支持结构化输出
是否能在目标设备上跑

六、2026 年 5 月开源模型的几个趋势

趋势一：许可证成为竞争力

Apache 2.0 和 MIT 仍然最受开发者欢迎。

因为它们简单、清楚、容易进入企业采购和法务流程。

定制许可证不是不能用，但企业必须提前评估：

收入门槛
商用限制
再分发限制
衍生模型归属
是否允许托管服务
是否允许用于训练其他模型

模型能力强是一回事，能不能放心上线是另一回事。

趋势二：小模型越来越像产品，而不是玩具

MiniCPM-V 4.6、LFM2.5-8B-A1B、LFM2.5-VL Extract 这类模型说明：

1	小模型不再只是大模型的缩水版，而是在特定任务里做产品化优化。

手机端、多模态抽取、语音交互、低延迟工具调用，这些场景并不总是需要最强通用模型。

很多业务只需要：

输出稳定
延迟低
成本低
格式可控
能微调
能私有部署

小模型在这些场景里反而更合适。

趋势三：开源模型正在逼近“系统工程”

2026 年的开源模型不是一个 .safetensors 文件就结束了。

真正可用的模型通常还需要：

tokenizer
chat template
tool parser
reasoning parser
vLLM / SGLang 支持
GGUF / MLX / ONNX 版本
量化方案
部署文档
评测脚本
示例代码

模型发布正在变成完整工程包发布。

这对开发者是好事。

因为你不用只盯论文，也可以直接看：

它有没有官方部署方式
有没有量化版本
有没有真实用例
有没有和推理框架适配
有没有稳定更新

七、我的选型建议

如果你现在就要选模型，我会这样建议。

需求	优先考虑
本地轻量助手	LFM2.5-8B-A1B、MiniCPM-V 4.6
企业 RAG 和文本助手	Granite 4.1、Command A+
图文 Agent	Step 3.7 Flash、Command A+
手机端视觉理解	MiniCPM-V 4.6
图片结构化抽取	LFM2.5-VL Extract
长上下文代码 Agent	MiMo-V2.5-Pro、Ling-2.6-1T、Ring-2.6-1T
许可证优先	Apache 2.0 或 MIT 模型，如 Granite、Command A+、Step、MiMo、Ling、Ring、Mellum2
代码和 IDE 生态观察	Mellum2、Granite 4.1、MiMo、Ling

如果只想先试一个模型：

个人本地：先试 LFM2.5-8B-A1B 或 MiniCPM-V 4.6
企业文本：先试 Granite 4.1
企业 Agent：先试 Command A+ 或 Step 3.7 Flash
代码 Agent：先用自己的仓库评测 MiMo、Ling、Ring、Mellum2

八、结语

2026 年 5 月的开源模型生态，最重要的变化不是“又多了几个大模型”。

真正重要的是：

1	开源模型开始覆盖从端侧设备到企业集群，从文本到图像、视频、语音，从聊天到工具调用和 Agent 执行的完整链条。

这对开发者是一次很好的机会。

因为你不再只能在闭源 API 和低质量本地模型之间二选一。

你可以根据自己的场景组合：

小模型做端侧
中模型做 RAG
大模型做复杂 Agent
专用模型做结构化抽取
开源推理框架做私有部署

但也要保持清醒。

模型名越来越多，榜单越来越多，参数也越来越夸张。

最终真正有用的选择标准仍然很朴素：

能否解决你的真实问题
能否在你的硬件上稳定运行
许可证是否允许你的业务使用
成本是否可接受
失败时是否可观测、可回滚、可替换

把这五点想清楚，再看模型表，选择就会简单很多。

2026 年 5 月开源大模型一览：LLM、多模态、Agent 与本地部署怎么选

一、先分清：开源、开放权重、可商用不是一回事

二、2026 年 5 月重点开源/开放权重模型总表

三、最值得关注的几个方向

1. Agent 模型开始成为主线

2. 长上下文成为默认卖点

3. MoE 成为大模型的主流工程路线

四、重点模型简评

Command A+ 05-2026：企业 Agent 和多语言场景的强选项

Step 3.7 Flash：面向高频生产 Agent 的视觉语言模型

MiniCPM-V 4.6：真正面向手机和端侧的多模态模型

MiMo-V2.5-Pro：长上下文 Agent 和复杂软件工程

Granite 4.1：企业可控、许可证清晰的稳健路线

LFM2.5-8B-A1B：端侧助手和低延迟工具调用

LFM2.5-VL Extract：不是聊天，而是视觉结构化抽取

Ring-2.6-1T 与 Ling-2.6-1T：1T 级 Agent 和推理模型路线

Mellum2：代码和 IDE 工作流的边界项

五、如果你要选模型，可以这样判断

1. 本地电脑或个人开发者

2. 企业内部知识库和 RAG

3. AI 编程和代码 Agent

4. 多模态、图片、视频、语音

六、2026 年 5 月开源模型的几个趋势

趋势一：许可证成为竞争力

趋势二：小模型越来越像产品，而不是玩具

趋势三：开源模型正在逼近“系统工程”

七、我的选型建议

八、结语

参考资料