月之暗面开源万亿参数大模型 Kimi K2，引领 AI 技术新突破

wayne_0523 — Sat, 12 Jul 2025 00:53:30 +0000

7 月 11 日深夜，阿里巴巴投资的 AI 初创公司月之暗面（Moonshot AI）宣布开源其最新研发的万亿参数大模型 Kimi K2，引发了全球 AI 领域的广泛关注。该模型在多项基准测试中展现出卓越性能，尤其是在代码生成能力上超越了美国的主要竞争对手，且成本仅为对手的一小部分。

Kimi K2 模型的发布，是月之暗面在生成式 AI 竞赛中的重要一步。公司宣称，Kimi K2 在编码基准测试中表现超越了 Anthropic 的 Claude Opus 4 和 OpenAI 的 GPT-4.1，同时在价格上更具竞争力。通过 GitHub 和社交媒体发布的信息显示，Kimi K2 在生成计算机代码方面表现出色，这一领域被视为 AI 实现技术任务自动化或减少人力成本的关键。

创新技术铸就卓越性能

Kimi K2 作为 Kimi 最新的 MoE 基础模型，总参数达 1T，激活参数为 32B，其能力领先性在代码、Agent、数学推理任务上尤为显著。该模型采用了三大核心创新技术，为其卓越性能奠定了坚实基础。

MuonClip 优化器：Kimi K2 抛弃了传统的 Adam 优化器，创新性地采用了 Muon 优化器，并结合 Muon 的 token 效率与 QK-Clip 的稳定性，支持 15.5 万亿 token 无损失 spike 预训练。在训练过程中，随着参数规模的急剧增长，注意力机制中的数值容易失控，导致训练过程崩溃，这是长期阻碍万亿参数模型发展的技术瓶颈。MuonClip 技术通过在每次优化器更新后，直接重新缩放查询（query）和键（key）投影的权重矩阵，从源头上精准地控制了注意力逻辑值的尺度，从而彻底杜绝了其 “爆炸” 的可能性，确保了大规模训练的连续性和有效性。
大规模 Agentic Tool Use 数据合成：团队构建了可大规模生成多轮工具使用场景的合成 pipeline，覆盖数百领域、数千工具。具体流程包括工具生成，涵盖 3000 多真实 MCP 工具及 20000 多合成工具，覆盖金融、机器人控制等广泛领域；Agentic 与任务生成，为工具集生成多样化 Agentic（系统提示 + 工具组合）和带评估标准的任务；轨迹生成，模拟用户交互、工具执行环境（含状态更新和随机结果），生成多轮工具使用轨迹，并结合真实执行沙箱（如编码任务），确保数据真实性。最终，Judge Agent 会依据任务 rubrics 对轨迹质量进行判断，只保留高质量样本用于训练。这一过程本质上是一种大规模拒绝采样机制，结合模拟规模与真实反馈，实现了大范围、高保真的训练数据构建。
通用强化学习框架：该框架结合可验证奖励（RLVR）和自我批判评估奖励，将对齐从静态扩展到开放域。在强化学习阶段，K2 主要经历了三大步骤。首先，构建可验证的奖励环境（Verifiable Rewards Gym），为不同任务设计 “可打分” 的训练场景，让模型的表现可以被客观评估，例如在编码场景中利用真实世界的数据构建任务，并通过自动化测试来验证模型的代码是否正确运行。其次，引入自我评估奖励机制（Self-Critique Rubric Reward），让模型将自己的多个输出结果进行两两比较，并根据一套明确的标准（如语言清晰度、对话是否连贯、是否啰嗦或拍马屁）给出奖励分，同时引入规则约束（如 “不要无脑称赞用户”）来避免生成套路化或迎合性回答，不仅增强了模型的自我反馈能力，也能将客观任务中的评估信号迁移到主观对话场景。最后，为了更高效、稳定地进行强化学习训练，K2 还对算法进行了多项改进，如采用预算控制机制限制每个样本的最大 token 数，避免生成啰嗦、重复或无意义的长文本；引入 PTX 辅助损失，使用高质量预训练样本时再加一个损失项，以防模型在 RL 阶段 “遗忘” 已有知识；采用温度衰减策略，训练初期用高温度鼓励模型大胆尝试、广泛探索，后期逐步降低温度，让模型输出更稳定、更收敛。

预训练：全新组合拳构建通用能力

在预训练阶段，Kimi K2 采用了 MoE 架构 + 稳定优化器 + 高效 token 利用的全新组合拳，以此构建通用语言和推理能力。
模型架构上，Kimi K2 一共包含 384 个专家，每层激活其中 8 个，通过这种高度稀疏的设计在保证性能的同时优化计算效率。在注意力机制上，K2 使用 MLA（Multi-head Latent Attention）结构代替传统的密集注意力（dense attention），有效减少了计算量和带宽压力，而且将每层的注意力头数量降至 64 个，与同类模型相比进一步降低了推理过程中的资源消耗，使模型能更好地处理长上下文。
数据方面，在高质量数据有限的情况下，K2 团队通过提升每 token 的有效学习信号（token 效用）来增强训练效率，避免重复训练导致的过拟合。为了让模型 “吃透” 有限的优质训练数据，K2 团队采取了 “重述法”。对于知识类文本，不是简单重复读，而是换着说法再讲一遍；对于数学类文本，把枯燥的教材式内容改写成更易理解的 “学习笔记” 风格，还加入了多语言版本的翻译文本。K2 的训练数据覆盖网页、代码、数学、知识四大板块，所有数据都经过严格的质量筛选。实验结果表明，用重写 10 次的数据训练 1 轮（28.94%），其准确率超过了用原始数据训练 10 轮（23.76%）的结果。

得益于以上技术，Kimi K2 在 SWE Bench Verified、Tau2、AceBench 等基准性能测试中，均取得开源模型中的最优成绩。
与需要订阅才能使用顶级模型的 ChatGPT 和 Claude 不同，Kimi K2 通过应用程序和浏览器界面向公众免费开放，成为中国公司迄今最易获取的高性能模型之一。月之暗面还为开发者提供了超低价格的使用方案：每百万输入令牌收费 0.15 美元，每百万输出令牌收费 2.50 美元，相比之下，Claude Opus 4 的收费分别为 15 美元和 75 美元，OpenAI 的 GPT-4.1 则为 2 美元和 8 美元。
Counterpoint Research 的首席 AI 分析师孙为表示，Kimi K2 “无疑具有全球竞争力”，其成本效益使其 “对预算敏感或大规模企业部署特别有吸引力”。月之暗面要求月活跃用户超过 1 亿或月收入达到 2000 万美元的商业用户在其界面上显示 “Kimi K2” 名称，除此之外，对模型的使用没有过多限制。
在 X（原 Twitter）和 GitHub 等平台上，早期用户的反馈大多积极。尽管模型偶尔会出现 “幻觉”（生成错误或虚构信息），这是行业普遍存在的问题，但早期使用者仍对其性能表示赞赏。AI 设计初创公司 MagicPath 的创始人 Pietro Schirano 称，Kimi K2 是自 Claude 3.5 Sonnet 以来，他首个放心部署使用的模型。
月之暗面是众多积极进军生成式 AI 领域的中国公司之一。由于 OpenAI 的 ChatGPT 在中国无法使用，中国本土的 AI 替代品获得了发展机会。随着字节跳动、腾讯和百度等公司的加入，竞争日益激烈。Kimi 的崛起反映出，随着全球 AI 竞争升温，投资者对中国 AI 挑战者的兴趣不断增长。
上个月，月之暗面发布的 Kimi Researcher 模型曾因在 “人类最后考试” 基准测试中的出色表现而成为焦点。该测试旨在评估高级推理能力，Kimi Researcher 的得分与谷歌 Gemini Deep Research 持平，超过了 OpenAI 的同类模型。甚至在埃隆・马斯克的 Grok 4 发布时，也提到了 Kimi Researcher 的成绩。
Kimi K2 的发布，标志着中国在 AI 技术领域的又一次重大突破，有望推动全球 AI 技术的进一步发展和应用。随着开源模型的不断优化和推广，AI 技术将更加普及，为各行各业带来更多创新机遇。

艾极科技

月之暗面开源万亿参数大模型 Kimi K2，引领 AI 技术新突破​

创新技术铸就卓越性能​

​

预训练：全新组合拳构建通用能力​

月之暗面开源万亿参数大模型 Kimi K2，引领 AI 技术新突破

创新技术铸就卓越性能

预训练：全新组合拳构建通用能力