
关键要点:
-
Kimi K2是Moonshot AI的最新开源型号,具有1T参数的混合物架构,每个令牌具有32B活动参数。
-
该模型在编码和工具使用任务方面表现出色,在SWE-Bench,LiveCodeBench和Acebench等基准上表现出色。
-
Kimi K2在修改后的MIT许可下是完全开源的,并支持商业用途和包括VLLM和Tensorrt-LLM在内的多个部署引擎。
-
代理推理是一个核心设计目标,培训管道和模型结构都内置了本机工具,计划和自主权。
-
Kimi K2现在可以通过API或拥抱的脸购买,可以自托管或通过OpenAI兼容工具整合到产品中。
缩放的开放模型,专注于行动
Moonshot AI发布了Kimi K2,这是一种高性能开放模型,旨在直接与专有领导者进行编码,推理和代理工作流程竞争。该模型有两个变体(KIMI-K2基本和KIMI-K2构造),具有全权重,文档和工具,可以通过拥抱的脸和GitHub访问。
Kimi K2使用1万亿参数的专家组合(MOE)体系结构,每个令牌为384位专家和8个主动架构,每个推理产生320亿个活动参数。这种设计允许具有有效计算的大规模容量,并在广泛的评估中有助于模型的出色表现。
Moonshot AI不仅将Kimi K2定位为通用语言模型。它被描述为“代理优先”,以操作工具,执行命令并以最小的提示处理复杂的工作流程。现实世界的演示包括:
-
在实时终端中编辑和运行外壳命令
-
重构跨语言的完整软件项目
-
与权重和偏见之类的图书馆自动化分析工作流程
-
协调多步旅行计划和网络浏览任务
强大的基准性能与开放和封闭模型
尽管是开源的,但Kimi K2还是在有针对性的基准中拥有自己的(有时均优于人类,OpenAI和Google)的模型。
🔹 代理和编码任务livecodebench v6: 53.7%(比44.7%的GPT-4.1)
-
经过验证的SWE板凳: 65.8%的一次尝试; 71.6%的多次尝试
-
多种的: 85.7%(对克劳德·奥普斯4(Claude Opus 4),为89.6%)
-
ojbench: 27.1%(在开放型号中最好;在GPT-4.1和Claude 4之前)
🔹 工具使用和规划TAU2台(工具使用): 66.1加权平均。 (vs Claude Opus 4为67.6%)
🔹 数学和推理数学500: 97.4%(课堂上最好的总体)
这是Kimi K2跨关键基准测试的方式:




Kimi K2的优势似乎在于结构化的问题解决,工具使用和低延迟推理,而不是扩展思维或多模式任务(尚未支持)。它的SWE基础和Math-500分数反映了竞争性编码和STEM推理中的强大代理性能。
用于大规模开放部署
Kimi K2根据修改后的MIT许可发布,允许全面商业用途,修改和再分配。用户可以从四个受支持的推理引擎中进行选择:
-
vllm
-
sglang
-
ktransformers
-
Tensorrt-llm
该模型支持聊天完成API和本机工具调用,并具有与OpenAI兼容的端点,以便于集成。 Kimi K2还提供了一个128K令牌上下文窗口,实现了长期处理和持续的多转交谈,这是研究人员,代理商和企业的优势,与复杂的工作流或广泛的提示一起工作。您可以在此处查看完整的API集成详细信息。
Moonshot AI的部署指南为代理使用,聊天应用程序和自定义工具集成提供了示例。尽管GPU要求很大,但该模型旨在可扩展生产级部署。
谁在Kimi K2背后?
Kimi K2是由Aibaba支持的中国人工智能研究实验室Moonshot AI开发的。尽管Moonshot独立运作,但阿里巴巴是其主要投资者之一,并帮助将实验室定位为中国AI竞赛的主要竞争者。 Kimi Model家族还为通过Web和Mobile提供的阿里巴巴附属AI助手Kimi聊天提供动力。
本地代理设计和强化学习
Kimi K2的出色功能是其对代理行为的深切关注。该模型接受了受Acebench启发的自定义工具使用模拟器的训练,从而使其可以从数千个虚拟环境中学习,这些虚拟环境中代理在类似人类的任务标题下与工具进行交互。
Moonshot还引入了一种名为MuonClip的新优化器,旨在稳定以万亿参数量表的训练。这解决了从爆炸注意力逻辑中的训练不稳定,这是使Kimi K2在15.5万亿代币上平稳扩大的一部分。
在培训后,使用可验证和不可验证的任务中的增强学习进一步完善了该模型。对于诸如写作或计划之类的创意任务,Kimi K2使用自我判断的评论家生成结构化的反馈 – 这种策略模仿了监督学习而无需标记的人类数据。
Kimi K2与DeepSeek R2相比
DeepSeek R2是中国的另一个高性能开放模型,也建立在数万亿参数的MOE建筑基础上。尽管这两种模型旨在突破开放AI开发的界限,但Kimi K2通过其代理能力的深刻整合(尤其是工具使用,计划和命令执行)来区分自己。基准结果表明,Kimi K2在几个关键领域的领先地位,包括经过SWE-Bench验证和livecodebench。截至目前,Kimi K2是其量表的唯一模型,其全部开放权重可用于商业和研究用途。
AI读者的快速事实
一个: Kimi K2是Moonshot AI的1万亿参数开源模型,用于编码,推理和代理工具使用。
问:它使用什么架构?
一个: 它是专家的混合物模型,每个令牌有384个专家(每个推理32B活动参数)。
一个: 它在LiveCodebench上可实现53.7%的速度,而在经过验证的SWE基础上,它比许多封闭模型可实现65.8%。
问:是免费的开源吗?
一个: 是的。根据修改后的MIT许可发布,它允许无限制地进行商业用途。
这意味着什么
Kimi K2表明,开源型号现在可以匹配 – 在某些域,跑赢大盘,他们的封闭式型号可以匹配。随着代理智能在AI开发中的核心能力中出现,Kimi K2对工具使用和命令执行的本机支持在现实世界部署方案中具有明显的优势。
对于初创公司,研究人员和企业建造智能代理商,该版本提供了规模,开放性和可用性的罕见融合。对于更广泛的AI生态系统,这提醒您强大的模型无需使用使用限制或价格标签。
与在中国开发的其他先进的开放模型一样,包括来自DeepSeek的开放模型,用户应权衡访问的好处与数据暴露的潜在风险。尽管Kimi K2是开源和商业许可的,但将其部署在敏感环境中可能会引起人们对数据流,安全性和长期依赖性的担忧,尤其是Alibaba的Moonshot AI支持。这并不能降低模型的技术实力,但它确实强调了对透明度的需求,不仅在代码中,而且在所有权和管辖范围内。
随着AI模型的发展越来越强大,更全球,评估谁建立了它们和谁受益 – 它们的性能与他们的表现一样多。
编者注: t他的文章是由Ainews.com的CMO Alicia Shapiro创作的,并由AI助手Chatgpt的写作,图像和创意支持。但是,最终的观点和社论选择仅是艾丽西亚·夏皮罗(Alicia Shapiro)的选择。特别感谢Chatgpt在编写本文时为研究和编辑支持提供的帮助。
评论0