前OpenAI研究员姚顺雨交出加入腾讯后的第一份答卷。
4月23日,腾讯混元发布Hy3 preview语言模型并将该模型开源。姚顺雨说,这是混元大模型重建的第一步。
配资炒股去年12月,他入职腾讯后出任“CEO/总裁办公室”首席AI科学家。今年2月,腾讯混元重建了预训练和强化学习的基础设施,两个月后,Hy3 preview终于面世。

上月,腾讯高管已在业绩发布会上预告该模型,并给予颇高评价,称这是一次混元模型的重大升级。此次Hy3 preview则公布了一些参数。这是一个快慢思考融合的混合专家模型,总参数 295B,激活参数21B,最大支持256K上下文长度。
朝聚眼科(02219)发布公告,该公司于2025年12月11日斥资32.03万港元回购12万股股份,每股回购价格为2.63-2.7港元。
从定位看,Hy3 preview主推Agent能力、上下文学习能力、复杂推理能力和代码能力。从基准测试得分看,该模型的能力仍与Gemini-3.1-Pro、GPT-5.4 xhigh有差距,但在部分基准测试中得分接近或高于国内的大模型Kimi-K2.5和GLM-5。
上下文学习和指令遵循能力方面,Hy3 preview在AdvancedIF(复杂指令遵循)和AALCR(长上下文推理)基准测试中得分低于Gemini-3.1-Pro、GPT-5.4 xhigh,但超过Kimi-K2.5和GLM-5,Long Bench v2(长上下文推理)测试得分高于Kimi-2.5。在腾讯混元提出的两个针对上下文学习能力的CL-bench和CL-bench-Life基准测试中,Hy3 preview得分低于两个海外模型,但高于Kimi-K2.5和GLM-5。

复杂推理能力方面,Hy3 preview在FrontierScience-Olympiad(专家级科学推理)和IMOAnswerBench(数学推理)基准测试中得分超过Kimi-K2.5和GLM-5,低于两个海外模型。在GPQA Diamond(博士级科学问题)基准测试中,Hy3 preview得分超过Kimi-K2.5,低于其他三个模型。在全国中学生生物学联赛(CHSBO 2025)中,Hy3 preview得分最高。

代码与智能体能力方面,Hy3 preview在SWE-Bench Verified(解决现实世界软件问题)、Terminal-Bench 2.0(智能体端到端执行)、BrowseComp(互联网上定位关联信息)基准测试中,得分都低于Claude-Opus-4.6和GLM-5,Terminal-Bench 2.0得分超过Kimi-K2.5。Hy3 preview在WildClawBench(智能体真实落地能力)、Claw Eval(真实世界任务中的智能体能力)测试中的得分超过Kimi-K2.5,低于GLM-5和Claude-Opus-4.6。在针对真实开发场景表现的混元内部测评集中,Hy3 preview得分超过Kimi-K2.5。

从一些基准测试得分可以看到,相比上一代的Hy2,Hy3 preview与头部模型之间的差距有所缩小。
姚顺雨表示,希望通过开源和发布获得来自开源社区和用户的真实反馈,帮助混元提升Hy3正式版的实用性。混元也在继续扩大预训练和强化学习规模,提升模型的智能上限,并通过与腾讯众多产品的协同设计,提升模型在真实场景中的综合表现,并开始探索特色模型能力。
今年1月,姚顺雨在入职腾讯后的首次公开亮相中,也提到模型智能水平的重要性。姚顺雨称,To C和To B市场的底层逻辑已经不同。To C市场的大部分用户在大部分时间不需要极强的智能,但在To B领域,智能越高代表生产力越高、溢价空间越大,企业级市场对模型能力的付费意愿已呈现极端的头部效应。
姚顺雨表示,在编程等高频且严肃的生产力场景中,较弱模型产生的错误需要人工耗费大量精力去排查,隐性成本远超模型差价,因此To B市场正走向分化,强模型和弱模型的差距将更明显。而在To C市场,姚顺雨还表示,单纯的模型参数竞赛已不是全部,未来的核心竞争力在于对语境(Context)的捕捉。
姚顺雨当时还谈到模型“刷榜”,称国内对刷榜或数字看得更重,Anthropic Claude在编程或软件工程榜单上的排行不是最高的,但行业都知道它最好。据了解,腾讯混元此前已确立了模型追求实用性的原则,其中就包括评测真实性,要求主动跳出易被“刷榜”的公开榜单并通过自建题目等方式评估和改进模型能力。
举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。如需获得授权请联系第一财经版权部:banquan@yicai.com 文章作者
郑栩彤
元股证券:ygzq.hk
相关阅读
300个Agent组团搬砖,Kimi深夜上线“AI打工人”技术迭代与资本竞速已形成双向绑定。
5 1548 04-21 09:13
全球首个全景式碳排放核算系统发布标志着我国在全球碳排放核算领域取得重大技术突破。
6 627 04-08 14:54
AI Lab撤销、部分人员并入混元,腾讯AI组织架构为何再变阵?腾讯对AI基础研发力量进行了集中化的整理。
2715 03-21 08:56
3·15揭露GEO“洗脑”:AI大模型被投毒问题日趋严重作为一个年轻的赛道,GEO行业仍面临诸多挑战。
233 03-16 11:11
AI周报 | 阿里通义千问负责人离职;腾讯楼下千人排队安装OpenClawMiniMax发布上市后首份成绩单;OpenAI发布大模型GPT-5.4股票配资是不是不适合震荡市。
154 03-07 22:36 一财最热 点击关闭
风控视角下的融资杠杆投资行为情绪与筹码视角近期,在主要资本流向区域的题材轮动加速期中,围绕“融资杠杆”的话题再度升温。新
2026-02-22
月度阶段境内外股市场景下股票证券杠杆配资的止盈止损机制以产品近期,在亚洲资本圈层的市场参与者观望情绪较重的阶段中,围绕“
2026-03-05
永元证券 2026年1月27日,春节前终末一个责任日,A股刚开盘,东材科技、毅昌科技、高盟新材三家不关系的上市公司。 同
2026-03-03
近期全球多国证券市场专业股票配资实盘的事前事中事后风控闭环以近期,在策略性资产市场的结构性行情阶段中,围绕“专业股票配资
2026-02-10
热点栏目 自选股 数据中心 行情中心 资金流向 模拟交易 客户端 绿城中国(03900)发布2025年度业绩,收入约人民
2026-04-01