根据著名AI分析机构Artificial Analysis的评测,Kimi K2 Thinking在智能体相关任务中表现非常出色,但在评测完成后,它产生的代币数量是所有模型中最多的,并且表现出非常“爱说话”的特点。核心点是:智商67分,登顶开源榜第一。 Kim K2 Thinking在人工智能分析智商中获得了67分。这一结果明显超过了所有其他开源权重模型,包括最近发布的MiniMax-M2(61分)和DeepSeek-V3.2-Exp(57分),在所有模型中仅次于GPT-5排名第二。特工拥有超强的技能和强大的推理能力。 Kimi K2 Thinking在智能体应用场景中展现出强大的实力,在分析智能体指数中仅次于GPT-5排名第二。其优越的性能主要归功于其²-Bench性能。在电信基准测试中取得了93%的成绩。这是一个使用代理工具的回顾。这是该机构独立衡量的最高分。另外,在 Humanity’s Last Exam 评测中,Kimi K2 Thinking 在没有工具的情况下取得了 22.3% 的成绩,成为继 GPT-5 和 Grok 4 之后最好的开源模型。虽然 Kimi K2 荣膺新一届开源模型冠军,但 Thinking 并未在任何一次代码评测中取得全面胜利,而是在各项评测中均与其他开源模型相比获得第一名或并列第一。具体排名如下:Terminal-Bench Hard第六名、SciCode第七名、LiveCodeBench第二名。因此,人工维度索引DeepSeek V3.2。分类详情: 模型详细信息:10 亿个参数,原生 INT4 精度 模型规格:总参数 10 亿个,激活参数 320 亿个(约 594 GB),仅支持文本输入,拥有 256K 上下文窗口 模型定位:该模型是 Kim K2 Instruct 的推理变体相同的架构和参数数量 INT4 精度:之前由 Kim K2 Instruct FP8 发布的精度不同,该模型原生以 INT4 精度推出。月之暗面通过在训练后阶段使用量化感知训练来实现这一目标。这样一来,模型大小仅为 594 GB 左右,相比 K2 Instruct 超过 1 TB 的大小显着减少,并提高了推理和训练效率。成本:高冗余、成本和延迟。想到Kimi K2的叔叔的行为举止非常“多嘴”。智能指数审核完成后,总共将使用 1.4 亿个代币。这比 DeepSeek V3.2 快约 2.5 倍,比 GPT-5 快约 2 倍。高冗余直接影响基础版本API的成本和延迟。价格:入场100万,退出2.5/100万代币。总评估成本:356 美元,比顶级模型便宜(比 GPT-5(高)便宜 2.5 倍),但比 DeepS 贵 9 倍eek V3.2 速度:非常慢,输出约 8 个代币/秒 Turbo API 版本: 价格:100 万个输入,8/100 万个输出代币。总审查成本:1,172 美元,使其成为继 Grok 4 之后第二昂贵的型号。 速度:相对较快,每秒最多输出 50 个代币 报告指出,此版本再次凸显了持续的趋势。也就是说,后训练,尤其是强化学习(RL),有助于提高涉及推理模型和工具调用的长距离任务的性能。参考:https://artificialanalogy.ai/models/kimi-k2-Pensando
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。