Moonshot AI释放了Kimi K2,这是一种用于代理推理的1T开源模型


现代开发人员工作区的插图重点介绍了Moonshot AI的开源模型Kimi K2。一个大型桌面显示器以英语和中文显示了Kimi K2徽标,并显示标语“ 1万亿个参数”。该界面在左侧显示一个编码环境,并带有“删除行导入数学”的命令,而AI助手在右侧完成了多步任务,包括“搜索飞行”和“计划旅行”。发光的金字塔图形表示模型的比例。该界面包括一个标有“开源”和Moonshot AI徽标的徽章。现场以凉爽的蓝色和蓝绿色的色调点亮,带有橙色的亮点,暗示了高性能和尖端技术。一个人的手在键盘上可见,强调在现实部署环境中的人类互动。

关键要点:

  • Kimi K2是Moonshot AI的最新开源型号,具有1T参数的混合物架构,每个令牌具有32B活动参数。

  • 该模型在编码和工具使用任务方面表现出色,在SWE-Bench,LiveCodeBench和Acebench等基准上表现出色。

  • Kimi K2在修改后的MIT许可下是完全开源的,并支持商业用途和包括VLLM和Tensorrt-LLM在内的多个部署引擎。

  • 代理推理是一个核心设计目标,培训管道和模型结构都内置了本机工具,计划和自主权。

  • Kimi K2现在可以通过API或拥抱的脸购买,可以自托管或通过OpenAI兼容工具整合到产品中。

缩放的开放模型,专注于行动

Moonshot AI发布了Kimi K2,这是一种高性能开放模型,旨在直接与专有领导者进行编码,推理和代理工作流程竞争。该模型有两个变体(KIMI-K2基本和KIMI-K2构造),具有全权重,文档和工具,可以通过拥抱的脸和GitHub访问。

Kimi K2使用1万亿参数的专家组合(MOE)体系结构,每个令牌为384位专家和8个主动架构,每个推理产生320亿个活动参数。这种设计允许具有有效计算的大规模容量,并在广泛的评估中有助于模型的出色表现。

Moonshot AI不仅将Kimi K2定位为通用语言模型。它被描述为“代理优先”,以操作工具,执行命令并以最小的提示处理复杂的工作流程。现实世界的演示包括:

  • 在实时终端中编辑和运行外壳命令

  • 重构跨语言的完整软件项目

  • 与权重和偏见之类的图书馆自动化分析工作流程

  • 协调多步旅行计划和网络浏览任务

强大的基准性能与开放和封闭模型

尽管是开源的,但Kimi K2还是在有针对性的基准中拥有自己的(有时均优于人类,OpenAI和Google)的模型。

🔹 代理和编码任务livecodebench v6: 53.7%(比44.7%的GPT-4.1)

  • 经过验证的SWE板凳: 65.8%的一次尝试; 71.6%的多次尝试

  • 多种的: 85.7%(对克劳德·奥普斯4(Claude Opus 4),为89.6%)

  • ojbench: 27.1%(在开放型号中最好;在GPT-4.1和Claude 4之前)

🔹 工具使用和规划TAU2台(工具使用): 66.1加权平均。 (vs Claude Opus 4为67.6%)

🔹 数学和推理数学500: 97.4%(课堂上最好的总体)

这是Kimi K2跨关键基准测试的方式:

复合条形图显示了Kimi K2在几个基准类别中的性能。在“ SWE Bench经过验证”中,Kimi K2单次尝试的分数为65.8%,多次尝试的速度为71.6%,表现优于Claude,GPT-4和DeepSeek。在“ SWE Bench多语言”中,它在其他开放模型之前得分47.3%。在“ Livecodebench V6”上,Kimi K2以53.7%的速度领先,在“ Ojbench”上,它以27.1%的榜首。在工具使用中,它在TAU2加权平均值中得分66.1%,Acebench的得分为76.5%。在数学和STEM中,AIME 2025的AIME占49.5%,GPQA辅助符号为75.1%,表现出强大的一般和特定于域的功能。
表比较开源和专有模型的编码基准结果的表。指标包括在LiveCodeBench,Ojbench,Multipl-E和各种SWE基础设置上的性能。 Kimi-K2教学在LiveCodebench V6上得分为53.7%,OJBENCH的27.1%,在Multipl-E上得分为85.7%,在所有其他开放模型之前将其放置在所有其他开放模型之前,并接近专有领导者。在经过验证的SWE-BENCH上,Kimi K2达到65.8%(单次尝试)和71.6%(多次尝试),表现优于GPT-4.1和Claude 3十四行诗,并且排名仅在Claude 3以下。该表分为开放式和专有柱,清楚地显示了Kimi K2的比较。
基准表显示了Kimi K2在工具使用任务(例如Tau2和Acebench)和数学/STEM任务(例如Aime,Math-500和CNMO 2024)上的性能。 Kimi K2率在TAU2零售价为70.6%,Tau2电信的65.8%,Acebench的率为76.5%。在数学繁重的评估中,它在数学500和CNMO 2024上的得分为97.4%,在多个任务上表现优于其他开放型号,超过其他开放型号,并超过其他公开模型,并且在多个任务上匹配或超过专有竞争对手。该图包括Claude,GPT-4等的比较数据,显示了Kimi K2在技术和推理领域的强度。
表突出显示了Kimi K2在一般推理和逻辑任务中的性能。该模型在MMLU上得分为89.5%,MMLU-REDUX的92.7%,MMLU-Pro的评分为81.1%。它在IFEVAL上的表现也很好,为89.8%,在LiveBench上得分为76.4%。在Autologi,Zebralogic和GPQA-Diamond上,它提供了行业领先的结果,超过了其他开放模型。该图将Kimi K2与包括Claude,GPT-4.1,DeepSeek和Gemini在内的领先模型进行了比较,展示了Kimi在多任务概括和逻辑繁重任务中的强劲成果。

Kimi K2的优势似乎在于结构化的问题解决,工具使用和低延迟推理,而不是扩展思维或多模式任务(尚未支持)。它的SWE基础和Math-500分数反映了竞争性编码和STEM推理中的强大代理性能。

用于大规模开放部署

Kimi K2根据修改后的MIT许可发布,允许全面商业用途,修改和再分配。用户可以从四个受支持的推理引擎中进行选择:

  • vllm

  • sglang

  • ktransformers

  • Tensorrt-llm

该模型支持聊天完成API和本机工具调用,并具有与OpenAI兼容的端点,以便于集成。 Kimi K2还提供了一个128K令牌上下文窗口,实现了长期处理和持续的多转交谈,这是研究人员,代理商和企业的优势,与复杂的工作流或广泛的提示一起工作。您可以在此处查看完整的API集成详细信息。

Moonshot AI的部署指南为代理使用,聊天应用程序和自定义工具集成提供了示例。尽管GPU要求很大,但该模型旨在可扩展生产级部署。

谁在Kimi K2背后?

Kimi K2是由Aibaba支持的中国人工智能研究实验室Moonshot AI开发的。尽管Moonshot独立运作,但阿里巴巴是其主要投资者之一,并帮助将实验室定位为中国AI竞赛的主要竞争者。 Kimi Model家族还为通过Web和Mobile提供的阿里巴巴附属AI助手Kimi聊天提供动力。

本地代理设计和强化学习

Kimi K2的出色功能是其对代理行为的深切关注。该模型接受了受Acebench启发的自定义工具使用模拟器的训练,从而使其可以从数千个虚拟环境中学习,这些虚拟环境中代理在类似人类的任务标题下与工具进行交互。

Moonshot还引入了一种名为MuonClip的新优化器,旨在稳定以万亿参数量表的训练。这解决了从爆炸注意力逻辑中的训练不稳定,这是使Kimi K2在15.5万亿代币上平稳扩大的一部分。

在培训后,使用可验证和不可验证的任务中的增强学习进一步完善了该模型。对于诸如写作或计划之类的创意任务,Kimi K2使用自我判断的评论家生成结构化的反馈 – 这种策略模仿了监督学习而无需标记的人类数据。

Kimi K2与DeepSeek R2相比

DeepSeek R2是中国的另一个高性能开放模型,也建立在数万亿参数的MOE建筑基础上。尽管这两种模型旨在突破开放AI开发的界限,但Kimi K2通过其代理能力的深刻整合(尤其是工具使用,计划和命令执行)来区分自己。基准结果表明,Kimi K2在几个关键领域的领先地位,包括经过SWE-Bench验证和livecodebench。截至目前,Kimi K2是其量表的唯一模型,其全部开放权重可用于商业和研究用途。

AI读者的快速事实

一个: Kimi K2是Moonshot AI的1万亿参数开源模型,用于编码,推理和代理工具使用。

问:它使用什么架构?

一个: 它是专家的混合物模型,每个令牌有384个专家(每个推理32B活动参数)。

一个: 它在LiveCodebench上可实现53.7%的速度,而在经过验证的SWE基础上,它比许多封闭模型可实现65.8%。

问:是免费的开源吗?

一个: 是的。根据修改后的MIT许可发布,它允许无限制地进行商业用途。

这意味着什么

Kimi K2表明,开源型号现在可以匹配 – 在某些域,跑赢大盘,他们的封闭式型号可以匹配。随着代理智能在AI开发中的核心能力中出现,Kimi K2对工具使用和命令执行的本机支持在现实世界部署方案中具有明显的优势。

对于初创公司,研究人员和企业建造智能代理商,该版本提供了规模,开放性和可用性的罕见融合。对于更广泛的AI生态系统,这提醒您强大的模型无需使用使用限制或价格标签。

与在中国开发的其他先进的开放模型一样,包括来自DeepSeek的开放模型,用户应权衡访问的好处与数据暴露的潜在风险。尽管Kimi K2是开源和商业许可的,但将其部署在敏感环境中可能会引起人们对数据流,安全性和长期依赖性的担忧,尤其是Alibaba的Moonshot AI支持。这并不能降低模型的技术实力,但它确实强调了对透明度的需求,不仅在代码中,而且在所有权和管辖范围内。

随着AI模型的发展越来越强大,更全球,评估谁建立了它们和谁受益 – 它们的性能与他们的表现一样多。

编者注: t他的文章是由Ainews.com的CMO Alicia Shapiro创作的,并由AI助手Chatgpt的写作,图像和创意支持。但是,最终的观点和社论选择仅是艾丽西亚·夏皮罗(Alicia Shapiro)的选择。特别感谢Chatgpt在编写本文时为研究和编辑支持提供的帮助。



Source link

0
分享到:

评论0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
没有账号? 忘记密码?