腾讯姚顺雨说破了：AI最没用的能力，是在榜单上赢麻了

⚠️ 模型刷榜第一，不代表你的工作效率第一。很多 AI 公司最擅长的不是解决问题，是解决排行榜。

---

先扎你一刀

现在 AI 圈有一种很神奇的运动。

不叫产品发布。

叫 榜单蹦迪。

今天你家模型数学榜第一。

明天我家模型代码榜第一。

后天另一家宣布：

“不好意思，我们在某某国际权威基准测试上超过了所有人。”

听起来很厉害。

但用户打开产品以后，常常是另一种画风：

榜单：世界第一
实际使用：复制粘贴都能翻车

榜单：推理能力超强
实际使用：让它改个表格，像刚学会用鼠标

榜单：多模态领先
实际使用：识图识成玄学现场

这就像一个人简历写着“精通 Excel”，结果入职第一天问你：

“哥，怎么合并单元格？”

6月5日，腾讯云 AI 产业应用大会上，腾讯首席 AI 科学家、混元大模型及 AI Infra 负责人姚顺雨说了一句很值得琢磨的话：

AI 的实用价值，高于“刷榜”价值。

这句话不复杂。

但在今天的 AI 圈，说出来就有点像往热油锅里倒冰水。

因为它戳中了一个行业真相：

很多模型不是不好，只是太爱证明自己“很强”，却没证明自己“有用”。

---

一、为什么AI公司这么爱刷榜？

因为榜单是最便宜的营销。

一个模型到底好不好用，真实用户要试，企业客户要测，开发者要接，场景要跑。

这很慢。

也很丑。

一旦进真实场景，模型就会遇到各种不讲武德的问题：

用户问题不规范
业务数据不完整
系统接口很古老
上下文又臭又长
老板需求天天变
合规边界还很紧

这时候模型再强，也得低头做人。

但榜单不一样。

榜单有标准题。

榜单有测试集。

榜单有分数。

榜单最适合做 PPT。

你只要把那个最高分截图放大，再配一句“全面领先”，投资人、媒体、用户都能先兴奋三分钟。

所以刷榜这件事，本质上是 AI 行业的“高考喜报”。

问题是：

高考状元不一定会做产品，榜单第一也不一定能帮用户省时间。

---

二、姚顺雨这句话，真正说的是“AI下半场”

这次不是一个孤立发言。

在 2026 腾讯云 AI 产业应用大会上，腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生和姚顺雨同台对谈，主题就是腾讯 AI 的下半场。

外界一直有个问题：

腾讯 AI 是不是慢了？

汤道生的回应大意是，腾讯赛道很多，有些地方慢，有些地方快，有些也确实做失败过，但这是长跑。

姚顺雨也提到，过去模型和产品走过弯路是正常的，AI 下半场更重要的是持续改变和保持耐心。

这背后的意思其实很明确：

AI 上半场拼的是“我有没有模型”。

AI 下半场拼的是“我的模型到底能不能进产品、进业务、进工作流”。

以前大家卷参数、卷榜单、卷发布会。

以后要卷的是：

能不能降低用户成本？
能不能减少真实错误？
能不能接住复杂场景？
能不能稳定产生价值？
能不能让用户愿意持续付费？

这才是实用价值。

这也解释了为什么姚顺雨会强调“基于产品、基于真正应用，构造更真实的 eval”。

说人话就是：

别只在考场里考满分，出来接个真实需求试试。

---

三、榜单最大的问题：它回答的是“会不会”，不是“值不值”

AI 榜单当然不是没用。

它能说明模型在某些能力维度上达到了什么水平。

比如数学、代码、推理、多模态、知识问答。

问题是，榜单通常回答的是：

这个模型会不会做这类题？

但用户真正关心的是：

它值不值得我在工作里用？

这两个问题差得很远。

举个很简单的例子。

一个模型在代码榜上分数很高，不代表它能帮你维护一个祖传项目。

因为真实项目不是题库。

真实项目里有：

没人敢删的旧代码
五年前留下的变量名
产品临时改的需求
测试环境玄学报错
文档写了但像没写

模型能不能在这种环境里稳定干活，榜单很难告诉你。

再比如，一个模型中文写作榜很高，不代表它能写出你公众号想要的味儿。

它可能句句正确。

但读起来像集团年会主持稿。

正确，但没人想看。

---

四、腾讯为什么有资格讲“实用价值”？

这里不是给腾讯吹彩虹屁。

腾讯过去在 AI 上确实经常被说“慢”。

但它有一个很多模型公司没有的东西：

大量真实产品出口。

微信、QQ、腾讯会议、腾讯文档、企业微信、腾讯云、元宝、ima、WorkBuddy……

这些产品不是 demo。

是每天有人真的在用、真的会骂、真的会产生反馈的数据场。

姚顺雨在对谈中提到，好的产品能提供 context 支持；元宝的 Co-Design 能让腾讯模型形成聊天和搜索能力，这些能力又能迁移到 ima、WorkBuddy 等产品里，不同产品提供的数据还能相互泛化，形成网络体系。

这段话听起来有点技术。

翻译一下：

真正有价值的 AI，不是一个模型孤零零地聪明，而是一堆产品场景不断喂它真实问题，让它越用越接地气。

这才是大厂的优势。

不是模型参数表写得漂亮。

而是有足够多真实用户，把模型从“实验室学霸”逼成“职场老油条”。

---

五、对创业公司和开发者意味着什么？

如果你是 AI 创业公司，这句话有点扎心。

因为它意味着：

光说模型强，越来越不够了。

你得证明：

用户为什么非用你不可？
你解决了哪个具体问题？
你的结果比人工便宜多少？
你的错误率有没有降下来？
你的产品能不能每天被用？

以前 AI 公司讲故事：

我们模型能力领先
我们团队背景顶级
我们榜单表现优秀
我们未来空间巨大

以后用户会问：

能不能少加班？
能不能少出错？
能不能少花钱？
能不能真的上线？
能不能别只会演示？

这才是 AI 公司的成人礼。

对开发者也一样。

别再只追“哪个模型排行榜第一”。

你真正该关心的是：

这个模型接我的业务稳不稳？
工具调用准不准？
长上下文会不会丢重点？
成本能不能扛住日常使用？
出了错我能不能定位？

模型榜单可以参考。

但别把它当信仰。

信榜单信到最后，很容易买到一台“考试很厉害、上班很摸鱼”的 AI。

---

六、AI下半场，真正的好模型长什么样？

我觉得至少有三个标准。

---

1. 不只会答题，还会进流程

用户不是为了看模型聊天。

用户是为了完成任务。

能不能写完报告，能不能接进工单，能不能调工具，能不能连数据库，能不能生成可执行结果。

这才是关键。

一个只会说“根据您的需求，我建议……”的模型，在下半场会越来越尴尬。

因为用户不缺建议。

用户缺的是：

你能不能把活干了？

---

2. 不只追大，还要追稳

姚顺雨也提到过一个方向：用相对小模型实现强鲁棒性，在中国可能比一味追性能更有价值。

这个判断很现实。

不是所有场景都需要最强大模型。

很多企业真正需要的是：

成本低
速度快
稳定
可控
能私有化
能长期跑

大模型当然厉害。

但如果每次调用都贵得像请外援，企业也不敢天天用。

AI 要从“炫技”变成“水电煤”，就必须便宜、稳定、可持续。

---

3. 不只会展示，还要能复盘

真实业务里，AI 不可能永远正确。

关键不是不犯错。

关键是：

错在哪里？
为什么错？
能不能追踪？
能不能改进？
能不能形成下一次更好的反馈？

这也是“真实 eval”的意义。

不是拿一套题考完就结束。

而是在产品里持续评估：

用户到底有没有被帮到？

这个问题，比任何排行榜都残酷。

---

最后说个扎心的

AI 圈现在最不缺的，就是“世界第一”。

今天这个世界第一。

明天那个世界第一。

第一多到像批发。

但用户真正想要的不是第一。

用户想要的是：

这玩意儿到底能不能让我少踩坑、少返工、少加班、少花钱？

姚顺雨这句话之所以值得写，不是因为它多惊天动地。

而是因为它提醒了一个最朴素的事实：

AI 的价值，不在榜单上。

AI 的价值，在用户真的用它解决了什么问题。

刷榜能赢一场发布会。

实用，才能赢一门生意。

---

现在问题来了：

你现在用 AI，看重的是“模型榜单第一”，还是“它真的帮你把活干了”？

评论区说实话。

别装成自己每天都在研究 benchmark。👇

---

参考信息：第一财经《腾讯姚顺雨：AI实用价值高于“刷榜”价值》、每日经济新闻《腾讯AI慢了吗？姚顺雨回应》、虎嗅《腾讯汤道生对话姚顺雨》、南方财经《汤道生对话姚顺雨，腾讯AI下半场是什么？》。