2026 年 5 月开源大模型一览:LLM、多模态、Agent 与本地部署怎么选
wxk1991 Lv5

2026 年 5 月开源大模型一览:LLM、多模态、Agent 与本地部署怎么选

如果只用一句话概括 2026 年 5 月的开源模型市场,那就是:

1
开源模型已经不只是“便宜替代品”,而是在认真争夺生产环境。

这一轮变化很明显。

过去我们看开源模型,常常先问:

  • 能不能跑起来?
  • 中文行不行?
  • 代码能力够不够?
  • 和闭源模型差距还有多大?

到 2026 年 5 月,问题已经变了:

  • 能不能稳定接工具?
  • 能不能处理 128K、256K 甚至 1M 长上下文?
  • 能不能在手机、Mac、工作站、私有 GPU 集群里部署?
  • 许可证到底能不能商用?
  • 多模态、语音、结构化抽取、代码 Agent 是否可以进入业务流程?

所以这篇文章不只列模型名。

本文会按开发者和企业真正关心的维度,把 2026 年 5 月前后值得关注的开源/开放权重模型做一次整理:

  • 总表:模型、参数、上下文、许可证、适合场景
  • 重点模型解读:哪些适合本地,哪些适合 Agent,哪些适合企业
  • 选型建议:不同硬件、业务、许可证要求下怎么选
  • 风险提醒:为什么“开放权重”不等于“可以随便商用”

说明:本文资料核对时间为 2026-06-08。AI 模型更新非常快,具体参数、许可证和部署方式请以官方模型卡为准。


一、先分清:开源、开放权重、可商用不是一回事

讨论开源模型之前,必须先把概念说清楚。

很多文章会把下面几类模型都叫“开源模型”:

1
2
3
4
开源模型
开放权重模型
可下载模型
可商用模型

但它们不是一回事。

更准确地说:

类型 含义 重点风险
开源模型 权重、代码、许可证相对开放,常见如 Apache 2.0、MIT 仍要看训练数据、商标、使用政策
开放权重模型 权重可以下载,但训练数据、训练代码、许可证可能有限制 不一定符合传统开源定义
可商用模型 许可证允许商业用途 可能有收入门槛、地域限制、再分发限制
本地可运行模型 能在本地或私有环境推理 不代表免费、低成本或可商用

一个很现实的例子是 Liquid AI 的 LFM Open License v1.0。

它基于 Apache 2.0 做了修改,允许研究和很多项目使用,但对商业使用设置了收入门槛:当公司年收入达到或超过 1000 万美元时,继续商用需要联系 Liquid AI 获取商业许可。

所以选模型时不要只看:

1
Hugging Face 上能不能下载

还要看:

1
license 字段、模型卡说明、商用限制、再分发条款、是否需要 trust_remote_code

二、2026 年 5 月重点开源/开放权重模型总表

下面这张表按 2026 年 5 月前后公开、更新或成为社区重点关注的模型整理。

其中有些模型的仓库在 4 月底创建,但官方发布、模型更新或社区讨论主要集中在 5 月;也有个别模型在 5 月底上架、6 月初才正式发博客。表格里会单独标注。

模型 5 月状态 类型与规模 上下文 许可证 适合场景 入口
Command A+ 05-2026 5 月发布 视觉语言 MoE,218B 总参数,25B 激活参数 128K 输入,64K 输出 Apache 2.0 企业 Agent、多语言、工具调用、图文输入 CohereLabs/command-a-plus-05-2026-bf16
Step 3.7 Flash 5 月发布 198B 稀疏 MoE 视觉语言模型,约 11B 激活参数 256K Apache 2.0 高并发 Agent、视觉理解、代码工程、工具编排 stepfun-ai/Step-3.7-Flash
MiniCPM-V 4.6 4 月上架,5 月开放 API 与持续更新 轻量多模态模型,SigLIP2-400M + Qwen3.5-0.8B 以图片/视频任务配置为主 Apache 2.0 手机端图像/视频理解、OCR、端侧多模态 openbmb/MiniCPM-V-4.6
MiMo-V2.5-Pro 4 月底上架,5 月更新 MoE,1.02T 总参数,42B 激活参数 1M MIT 长上下文 Agent、复杂软件工程、长任务执行 XiaomiMiMo/MiMo-V2.5-Pro
Granite 4.1 4 月 29 日发布,5 月进入应用讨论 3B、8B、30B Dense 长上下文语言模型 131K Apache 2.0 企业助手、RAG、工具调用、代码补全、可审计部署 ibm-granite/granite-4.1-30b
LFM2.5-8B-A1B 5 月发布 混合架构,8.3B 总参数,1.5B 激活参数 128K LFM Open License v1.0 端侧助手、工具调用、结构化输出、低延迟推理 LiquidAI/LFM2.5-8B-A1B
LFM2.5-VL Extract 5 月发布 450M / 1.6B 级视觉抽取模型 128K LFM Open License v1.0 图片字段抽取、商品属性识别、安全事件检测、JSON 输出 LiquidAI/LFM2.5-VL-1.6B-Extract
LFM2.5-Audio-1.5B-JP 5 月发布 1.5B 日语语音到语音模型 32K LFM Open License v1.0 日语实时语音助手、ASR、TTS、语音对话 LiquidAI/LFM2.5-Audio-1.5B-JP
Ring-2.6-1T 5 月发布 1T 级推理模型 128K,可通过 YaRN 到 256K MIT 深度推理、复杂 Agent、企业自动化、科研分析 inclusionAI/Ring-2.6-1T
Ling-2.6-1T 4 月底上架,5 月更新 1T 级通用旗舰模型 约 256K 部署配置 MIT 编程、日常工作流、多步执行、工具调用 inclusionAI/Ling-2.6-1T
Mellum2 5 月底上架,6 月初正式介绍 JetBrains MoE,12B 总参数,2.5B 激活参数 131K Apache 2.0 代码、IDE 工作流、长上下文文本生成、微调基座 JetBrains/Mellum2-12B-A2.5B-Base

从这张表可以看到一个趋势:

1
2026 年的开源模型竞争,已经从“参数越大越好”,变成了“能力、推理成本、上下文、许可证、部署生态一起竞争”。

三、最值得关注的几个方向

1. Agent 模型开始成为主线

5 月份最明显的关键词不是聊天,而是:

1
2
3
4
Agent
Tool Use
Function Calling
Long-horizon Tasks

Command A+、Step 3.7 Flash、MiMo-V2.5-Pro、Ring-2.6-1T、Ling-2.6-1T 都在强调类似能力:

  • 能不能稳定调用外部工具
  • 能不能在多轮任务里不丢约束
  • 能不能处理复杂工程仓库
  • 能不能在长上下文里保持一致性
  • 能不能把任务拆成步骤并持续推进

这说明开源模型正在从“问答模型”转向“执行模型”。

以前评估一个模型,常看 MMLU、GSM8K、HumanEval。

现在还要看:

  • SWE-Bench 类代码修复任务
  • BFCL 类函数调用任务
  • Tau2-Bench 类业务流程任务
  • ClawEval 类 Agent 安全与工具编排任务
  • 长上下文检索、规划和一致性任务

如果你准备用开源模型做 AI 编程助手、自动化办公、私有知识库 Agent,单纯看通用榜单已经不够了。

更应该自己准备一组真实任务:

1
2
3
4
5
你的仓库
你的文档
你的接口
你的业务规则
你的失败样例

模型在这些数据上的表现,比公开榜单更有意义。


2. 长上下文成为默认卖点

2026 年 5 月的模型里,128K 已经不稀奇。

比较典型的是:

  • Command A+:128K 输入
  • Granite 4.1:131K
  • LFM2.5-8B-A1B:128K
  • Step 3.7 Flash:256K
  • Ring-2.6-1T:128K 到 256K
  • Ling-2.6-1T:部署示例中使用 262144 context length
  • MiMo-V2.5-Pro:最高 1M
  • Mellum2:131072

这对开发者很重要。

过去做 RAG 和代码 Agent,经常要把文档切得很碎,模型只看局部,再靠检索拼答案。

长上下文模型出现后,策略可以更灵活:

  • 小项目可以直接塞更多源码
  • 法务、财报、合同可以减少切片损失
  • Agent 可以保留更长任务轨迹
  • 多文件代码审查可以减少上下文切换

但长上下文不是免费的。

上下文越长,通常意味着:

  • 首 token 延迟更高
  • KV cache 更吃显存
  • 推理成本更高
  • 模型可能“看得到但用不好”

所以不要迷信 1M。

更实用的做法是:

1
2
3
4
RAG 负责找对材料
长上下文负责保留关键证据
Prompt 负责压缩任务目标
评测负责发现模型是否真的用到了上下文

3. MoE 成为大模型的主流工程路线

2026 年 5 月的许多重点模型都是 MoE。

例如:

  • Command A+:218B 总参数,25B 激活参数
  • Step 3.7 Flash:198B 总参数,约 11B 激活参数
  • MiMo-V2.5-Pro:1.02T 总参数,42B 激活参数
  • LFM2.5-8B-A1B:8.3B 总参数,1.5B 激活参数
  • Mellum2:12B 总参数,2.5B 激活参数

MoE 的好处很直接:

1
总容量做大,但每个 token 只激活一部分专家。

这让模型在知识容量、推理速度和部署成本之间取得更好的平衡。

但 MoE 也带来新的复杂度:

  • 权重下载体积仍然大
  • 多 GPU 部署更复杂
  • 专家并行、张量并行、流水线并行配置更讲究
  • 量化和推理框架支持很关键

所以判断一个 MoE 模型能不能用,不要只看 active params。

还要看:

  • 是否支持 vLLM、SGLang、llama.cpp、MLX
  • 是否有 GGUF、FP8、W4A4、NVFP4 等量化版本
  • 是否需要 trust_remote_code
  • 是否有稳定的 tokenizer 和 chat template
  • 是否有官方部署示例

四、重点模型简评

Command A+ 05-2026:企业 Agent 和多语言场景的强选项

Command A+ 是 Cohere 在 2026 年 5 月发布的开放模型。

它的定位非常清晰:

1
企业、多语言、工具调用、视觉输入、推理任务。

模型规模为 218B 总参数、25B 激活参数,采用稀疏 MoE 架构,支持 128K 输入上下文和 64K 输出长度。

它的优势在于比较“企业化”:

  • Apache 2.0 许可证
  • 官方提供 BF16、FP8、W4A4 多种量化版本
  • 模型卡明确说明工具调用能力
  • 支持文本和图片输入
  • 语言覆盖较广,包括中文、英文、日文、韩文、阿拉伯语等

如果你要做的是企业内部 Agent,比如:

  • 内部知识库问答
  • 多语言客服
  • 文档分析
  • 工具调用
  • 图片加文本的业务流

Command A+ 值得进入候选列表。

但它并不是普通个人电脑能轻松跑的模型。官方给出的硬件示例里,BF16 版本需要多卡高端 GPU,推荐的 W4A4 量化版本也更偏数据中心环境。


Step 3.7 Flash:面向高频生产 Agent 的视觉语言模型

Step 3.7 Flash 的关键词是:

1
视觉语言、Agent、高吞吐、256K 上下文。

它是 198B 参数级稀疏 MoE 视觉语言模型,由 196B 语言骨干和 1.8B 视觉编码器组成,每 token 激活约 11B 参数。

这个模型的定位不是“本地小玩具”,而是面向高频生产负载:

  • 视觉理解
  • 搜索和验证
  • 工具编排
  • 多步 Agent
  • 代码工程任务
  • 长文档处理

它还有一个很实用的设计:可选推理强度。

开发者可以在低、中、高推理级别之间选择,用速度和成本换取不同深度的思考。

如果你要做的是:

  • 图文混合 Agent
  • 需要看 UI、图表、截图的自动化系统
  • 高频工具调用工作流
  • 需要私有部署的企业级 Agent

Step 3.7 Flash 是 5 月非常值得关注的一类模型。


MiniCPM-V 4.6:真正面向手机和端侧的多模态模型

MiniCPM-V 4.6 的特别之处在于:

1
它不是为了最大参数,而是为了端侧多模态。

它基于 SigLIP2-400M 和 Qwen3.5-0.8B,主打图片、视频理解和高效率视觉 token 压缩。

官方模型卡里非常强调三点:

  • 支持 iOS、Android、HarmonyOS 三大端侧平台
  • 支持图片、多图、视频理解
  • 适配 vLLM、SGLang、llama.cpp、Ollama、SWIFT、LLaMA-Factory 等生态

这类模型适合的场景很具体:

  • 手机端 OCR
  • 拍照问答
  • 视频片段理解
  • 轻量图像质检
  • 票据、表单、手写内容识别
  • 端侧多模态 Demo 和原型

如果你的目标是“在手机或边缘设备上跑”,MiniCPM-V 4.6 比那些 100B 以上模型更现实。


MiMo-V2.5-Pro:长上下文 Agent 和复杂软件工程

MiMo-V2.5-Pro 是小米 MiMo 团队发布的 1T 级 MoE 模型。

它的参数结构很激进:

  • 1.02T 总参数
  • 42B 激活参数
  • 1M 上下文
  • MIT 许可证
  • 面向 Agent、复杂软件工程和长周期任务

它的关键价值不是“能聊”,而是“能长时间执行”。

比如复杂软件工程场景中,模型要做的不只是生成一个函数,而是:

  • 读 issue
  • 找相关文件
  • 规划修改
  • 调用工具
  • 生成 patch
  • 根据测试失败继续修
  • 在长任务里保持目标一致

MiMo-V2.5-Pro 就是往这个方向设计的。

不过它的部署门槛也非常高。

1T 级模型即使用 MoE,也不是普通单卡或笔记本能轻松运行的。更适合有多 GPU 集群、需要私有化强能力 Agent 的团队关注。


Granite 4.1:企业可控、许可证清晰的稳健路线

IBM Granite 4.1 不是 5 月才出现的模型,它在 2026 年 4 月 29 日发布,但 5 月进入了更多应用讨论。

它的优势不是参数最大,而是:

1
企业友好、许可证清晰、规模选择稳健。

Granite 4.1 语言模型包括 3B、8B、30B 等尺寸,均为 Apache 2.0。

适合的场景包括:

  • 企业助手
  • 文档摘要
  • RAG
  • 文本分类
  • 信息抽取
  • 函数调用
  • 代码补全
  • 多语言对话

如果你在企业里做 AI 落地,Granite 这种模型的价值很高。

它可能不是所有榜单第一,但在许可证、模型家族、部署文档、企业集成、可审计性方面更稳。

很多时候,企业选模型并不是选“最聪明的那个”,而是选:

1
能力足够、风险可控、部署稳定、许可证清楚的那个。

LFM2.5-8B-A1B:端侧助手和低延迟工具调用

Liquid AI 的 LFM2.5-8B-A1B 是 5 月底非常有代表性的“小激活参数”模型。

它的规模是:

  • 8.3B 总参数
  • 1.5B 激活参数
  • 128K 上下文
  • 支持工具调用
  • 支持 llama.cpp、MLX、vLLM、SGLang

这个模型的重点不是用来挑战最强闭源模型,而是解决一个更现实的问题:

1
如何在本地、边缘设备或低成本服务里跑一个可用的智能助手。

适合场景包括:

  • 个人本地助手
  • 结构化输出
  • 多语言轻量问答
  • 工具调用
  • 低延迟工作流
  • Apple Silicon 或本地桌面推理

但要注意许可证。

LFM 系列使用 LFM Open License v1.0,不是标准 Apache 2.0 或 MIT。个人、研究、小团队原型通常问题不大,但企业商用前一定要读完整许可证。


LFM2.5-VL Extract:不是聊天,而是视觉结构化抽取

LFM2.5-VL Extract 很有意思,因为它不试图做一个万能视觉语言助手。

它的目标很明确:

1
从图片中按字段抽取信息,并返回 JSON。

这类模型对业务非常实用。

比如你可以定义:

1
2
3
4
brand: 商品品牌
color: 商品颜色
material: 商品材质
defect: 是否存在明显缺陷

然后让模型从图片里返回结构化 JSON。

这比自由问答更适合接进生产系统。

适合场景包括:

  • 电商商品属性抽取
  • 图片审核前置分类
  • 工业质检字段抽取
  • 安防事件识别
  • 表单或票据图像结构化

如果你的任务不是“让模型聊天”,而是“让模型稳定输出字段”,这类小模型反而比大而全的模型更容易落地。


Ring-2.6-1T 与 Ling-2.6-1T:1T 级 Agent 和推理模型路线

inclusionAI 在 5 月前后连续推出 Ling-2.6-1T 和 Ring-2.6-1T。

这两类模型都指向一个趋势:

1
开源阵营正在把 1T 级模型推向真实 Agent 工作流。

Ling-2.6-1T 更强调:

  • 编程
  • 日常工作流
  • 快速思考
  • 多步执行
  • 工具调用

Ring-2.6-1T 更强调:

  • 深度推理
  • 高强度 reasoning effort
  • 企业自动化
  • 科研分析
  • 复杂任务执行

从许可证看,两者都是 MIT。

从部署看,它们更适合高端 GPU 环境或通过第三方推理服务使用。

如果你是个人开发者,这类模型更适合拿来做能力参考或 API 测试;如果你是企业或研究团队,它们才更可能进入私有部署评估。


Mellum2:代码和 IDE 工作流的边界项

Mellum2 是 JetBrains 的 MoE 模型,模型仓库在 2026 年 5 月底创建,官方博客在 6 月 1 日发布。

严格按“5 月新闻”算,它属于边界项;但按“5 月底开源模型观察”算,它值得放进表里。

它的特点是:

  • 12B 总参数,2.5B 激活参数
  • 64 个专家,每 token 激活 8 个
  • 131072 上下文
  • Apache 2.0
  • 提供 Base、Instruct、Thinking 等变体

JetBrains 的背景决定了 Mellum2 很适合关注代码、IDE、工程工作流的人。

它未必是最大模型,但“工具厂商自己做模型”这件事很值得看。

未来 AI 编程不会只比模型本身,还会比:

  • IDE 集成
  • 代码索引
  • 上下文管理
  • Patch 应用
  • 测试反馈
  • 多工具协作

Mellum2 更像是这个方向上的基础积木。


五、如果你要选模型,可以这样判断

1. 本地电脑或个人开发者

优先看:

  • LFM2.5-8B-A1B
  • MiniCPM-V 4.6
  • LFM2.5-VL Extract
  • Mellum2 的量化版本或小规模变体

原因很简单:

1
能跑起来,才有调试价值。

个人开发者不要一上来就追 1T 模型。

更好的路线是:

  1. 用小模型跑通工作流
  2. 用真实数据做评测
  3. 确认瓶颈是模型能力而不是工程问题
  4. 再换更大模型或接 API

2. 企业内部知识库和 RAG

优先看:

  • Granite 4.1
  • Command A+
  • LFM2.5-8B-A1B
  • Step 3.7 Flash

如果许可证和可审计性很重要,Apache 2.0 的 Granite、Command A+、Step 3.7 Flash 会更容易推进。

如果成本和本地化更重要,小模型加 RAG 往往比超大模型裸跑更划算。

RAG 场景里,模型能力只是一部分。

更关键的是:

  • 文档切分
  • 向量召回
  • 重排
  • 引用溯源
  • 权限控制
  • 答案拒答策略
  • 日志审计

模型再强,如果检索材料错了,答案也会跟着错。


3. AI 编程和代码 Agent

优先看:

  • MiMo-V2.5-Pro
  • Ling-2.6-1T
  • Ring-2.6-1T
  • Step 3.7 Flash
  • Mellum2
  • Granite 4.1

代码 Agent 不只是补全代码。

真正难的是:

  • 理解项目结构
  • 在多文件之间定位问题
  • 生成可运行 patch
  • 根据测试失败迭代
  • 不破坏现有行为
  • 遵守项目风格和约束

因此评测时不要只问 HumanEval。

更应该准备自己的测试集:

1
2
3
4
10 个真实 issue
10 个历史 bug
10 个需要跨文件修改的任务
10 个容易误改的边界场景

让模型在你的仓库里跑,结果会比公开榜单更诚实。


4. 多模态、图片、视频、语音

如果是图文重模型:

  • Command A+
  • Step 3.7 Flash

如果是端侧图像和视频:

  • MiniCPM-V 4.6

如果是图片字段抽取:

  • LFM2.5-VL Extract

如果是日语语音对话:

  • LFM2.5-Audio-1.5B-JP

多模态模型要特别注意输入类型。

有的模型适合通用视觉问答,有的适合 OCR,有的适合视频,有的适合结构化抽取,有的适合语音到语音。

不要只看“支持多模态”四个字。

要看:

1
2
3
4
5
6
7
输入是什么
输出是什么
是否支持多图
是否支持视频
是否支持流式音频
是否支持结构化输出
是否能在目标设备上跑

六、2026 年 5 月开源模型的几个趋势

趋势一:许可证成为竞争力

Apache 2.0 和 MIT 仍然最受开发者欢迎。

因为它们简单、清楚、容易进入企业采购和法务流程。

定制许可证不是不能用,但企业必须提前评估:

  • 收入门槛
  • 商用限制
  • 再分发限制
  • 衍生模型归属
  • 是否允许托管服务
  • 是否允许用于训练其他模型

模型能力强是一回事,能不能放心上线是另一回事。


趋势二:小模型越来越像产品,而不是玩具

MiniCPM-V 4.6、LFM2.5-8B-A1B、LFM2.5-VL Extract 这类模型说明:

1
小模型不再只是大模型的缩水版,而是在特定任务里做产品化优化。

手机端、多模态抽取、语音交互、低延迟工具调用,这些场景并不总是需要最强通用模型。

很多业务只需要:

  • 输出稳定
  • 延迟低
  • 成本低
  • 格式可控
  • 能微调
  • 能私有部署

小模型在这些场景里反而更合适。


趋势三:开源模型正在逼近“系统工程”

2026 年的开源模型不是一个 .safetensors 文件就结束了。

真正可用的模型通常还需要:

  • tokenizer
  • chat template
  • tool parser
  • reasoning parser
  • vLLM / SGLang 支持
  • GGUF / MLX / ONNX 版本
  • 量化方案
  • 部署文档
  • 评测脚本
  • 示例代码

模型发布正在变成完整工程包发布。

这对开发者是好事。

因为你不用只盯论文,也可以直接看:

1
2
3
4
5
它有没有官方部署方式
有没有量化版本
有没有真实用例
有没有和推理框架适配
有没有稳定更新

七、我的选型建议

如果你现在就要选模型,我会这样建议。

需求 优先考虑
本地轻量助手 LFM2.5-8B-A1B、MiniCPM-V 4.6
企业 RAG 和文本助手 Granite 4.1、Command A+
图文 Agent Step 3.7 Flash、Command A+
手机端视觉理解 MiniCPM-V 4.6
图片结构化抽取 LFM2.5-VL Extract
长上下文代码 Agent MiMo-V2.5-Pro、Ling-2.6-1T、Ring-2.6-1T
许可证优先 Apache 2.0 或 MIT 模型,如 Granite、Command A+、Step、MiMo、Ling、Ring、Mellum2
代码和 IDE 生态观察 Mellum2、Granite 4.1、MiMo、Ling

如果只想先试一个模型:

1
2
3
4
个人本地:先试 LFM2.5-8B-A1B 或 MiniCPM-V 4.6
企业文本:先试 Granite 4.1
企业 Agent:先试 Command A+ 或 Step 3.7 Flash
代码 Agent:先用自己的仓库评测 MiMo、Ling、Ring、Mellum2

八、结语

2026 年 5 月的开源模型生态,最重要的变化不是“又多了几个大模型”。

真正重要的是:

1
开源模型开始覆盖从端侧设备到企业集群,从文本到图像、视频、语音,从聊天到工具调用和 Agent 执行的完整链条。

这对开发者是一次很好的机会。

因为你不再只能在闭源 API 和低质量本地模型之间二选一。

你可以根据自己的场景组合:

  • 小模型做端侧
  • 中模型做 RAG
  • 大模型做复杂 Agent
  • 专用模型做结构化抽取
  • 开源推理框架做私有部署

但也要保持清醒。

模型名越来越多,榜单越来越多,参数也越来越夸张。

最终真正有用的选择标准仍然很朴素:

1
2
3
4
5
能否解决你的真实问题
能否在你的硬件上稳定运行
许可证是否允许你的业务使用
成本是否可接受
失败时是否可观测、可回滚、可替换

把这五点想清楚,再看模型表,选择就会简单很多。


参考资料