LLM Agent

13款大模型横向速览（2026-04 按场景选型）

Posted by Forgus on 2026-04-21

核心维度总表（关键信息直达）

模型	定位	架构 / 参数	上下文	编码能力 (基准)	速度 (tok/s)	价格 (元 / M)	适合场景
Kimi K2.6	代码 + 长 Agent 旗舰	MoE/1T (32B 激活)	256K	Kimi Code Bench +20%	60–80	输入≈5；输出≈20	uni-app/Vue 完整工程、13h 连续编码、300 Agent 并行
Kimi K2.5	全能多模态	MoE/1T (32B 激活)	256K	SWE-bench Verified 76.8%	60–80	输入≈5；输出≈20	单页 / UI、多模态、简单组件
Qwen3.6-plus	通用 + 编程旗舰	MoE/350B (30B 激活)	1M	SWE-bench Verified 78.8%	50–70	输入≈4；输出≈18	长文档 RAG、复杂 Agent、多模态
Qwen3.5-plus	通用主力	MoE/350B (30B 激活)	256K	SWE-bench Verified 74.6%	50–70	输入≈3.5；输出≈16	平衡成本与能力、常规开发
GLM-5.1	长程编程 SOTA	MoE/744B (40B 激活)	200K	Coding Eval 45.3(+28%)	45–60	输入 6；输出 24	8h 长程工程、0→1 中台、高性价比国产编程
GLM-5	编程主力	MoE/744B (40B 激活)	200K	Coding Eval 35.4	45–60	输入 4；输出 18	日常代码生成、工具调用
GLM-5V-Turbo	Agent 专用	MoE/744B (40B 激活)	200K	工具调用优化	45–60	输入 5；输出 22	高频工具调用、AutoGLM 协同
MiniMax M2.7	Agent 协同旗舰	MoE/229B (10B 激活)	200K	MM-ClawBench 62.7%	100	输入≈3；输出≈12	并行 Agent、自我进化、OpenClaw 生态
MiniMax M2.5	多语言编码	MoE/229B (10B 激活)	200K	SWE-bench Verified 80.2%	70	输入≈2.5；输出≈9.5	批量任务、成本优先、多语言开发
MiniMax M2.1	基础通用	MoE/229B (10B 激活)	200K	综合 82.2%	60	输入≈2；输出≈8	轻量任务、低预算入门
Doubao-Seed-2.0-Code	字节编程旗舰	稠密 / 40B+	256K	接近 Claude Sonnet 4.6	50–70	输入≈5.5；输出≈28	字节生态、代码调试、TRAE 协同
Doubao-Seed-Code	编程基础	稠密 / 30B+	256K	基础编码	40–60	输入≈4.5；输出≈22	简单代码、学习场景
Nemotron 3 Super	开源吞吐旗舰	MoE/120B (12B 激活)	1M	综合 85.6%	430	开源免费	本地部署、长上下文、高吞吐 Agent
DeepSeek-V3.1	开源编程旗舰	MoE/685B	128K	Aider 71.6%	50–70	输入≈3.5；输出≈10	开源编程、数学推理、MIT 协议
Qwen-3-Coder	开源编程 SOTA	MoE/480B (35B 激活)	1M	SWE-bench Verified 69.6%	50–70	输入≈6；输出≈60	开源本地部署、复杂软件工程、256K 上下文
GLM-4.6	开源通用旗舰	MoE/355B (32B 激活)	200K	对齐 Claude Sonnet 4	45–60	输入≈4；输出≈18	开源生态、真实编程、长上下文

分场景精准选型

✅ 前端 /uni-app 工程

首选：Kimi K2.6
- 核心优势：13h 连续编码、300 Agent 并行、Kimi Code Bench +20%，可一次性生成完整 uni-app 工程，自动完成 div→view、axios→uni.request、路由与 rpx 适配，结构标准可直接运行。
- 适用：完整项目生成、批量页面、跨文件重构、复杂交互。
次选：GLM-5.1
- 核心优势：Coding Eval 45.3(+28%)、200K 上下文、国产编程第一梯队，适合 0→1 中台搭建、长程工程开发。
- 适用：后端协同、复杂业务逻辑、高稳定性要求。
开源替代：Qwen-3-Coder / DeepSeek-V3.1
- 核心优势：开源可本地部署，Qwen-3-Coder 支持 1M 上下文，DeepSeek-V3.1 Aider 71.6%，适合离线开发、隐私优先场景。

🧠 通用推理 / 长文档 RAG

首选：Qwen3.6-plus
- 核心优势：1M 上下文、preserve_thinking 防失忆、SWE-bench Verified 78.8%，长文档处理与 Agent 稳定性拉满。
备选：GLM-5 / GLM-5.1
- 核心优势：200K 上下文、工具调用成熟，国产生态适配好，成本低于国际模型。

🤖 Agent 集群 / 并行任务

首选：MiniMax M2.7
- 核心优势：自我进化、30% 性能提升、MM-ClawBench 62.7%（国产第一），OpenClaw 生态最佳适配，100 tok/s 高速交互。
备选：Kimi K2.6
- 核心优势：300 Agent、4000 步并行，长周期 Agent 任务稳定性强。

🧩 开源本地部署 / 高吞吐

首选：Nemotron 3 Super
- 核心优势：1M 上下文、430 tok/s 极致吞吐、开源免费，NVFP4 量化版部署成本低，适合边缘设备与高并发场景。
备选：Qwen-3-Coder / DeepSeek-V3.1
- 核心优势：MIT 开源、社区生态成熟，Qwen-3-Coder 支持 1M 上下文，DeepSeek-V3.1 编程能力领先。

💰 高性价比 / 成本敏感

首选：MiniMax M2.5
- 核心优势：输出价格仅 $0.95/M（约 6.6 元），SWE-bench Verified 80.2%，批量任务成本最优。
备选：GLM-5
- 核心优势：输入 4 元 / M、输出 18 元 / M，编程能力稳定，日常开发成本可控。

🌐 字节生态 / 低延迟

首选：Doubao-Seed-2.0-Code
- 核心优势：字节自研、TRAE 协同最佳、代码调试能力强，适合字节系业务与低延迟需求。

▲