⚠️ 模型刷榜第一,不代表你的工作效率第一。很多 AI 公司最擅长的不是解决问题,是解决排行榜。

---

先扎你一刀

现在 AI 圈有一种很神奇的运动。

不叫产品发布。

榜单蹦迪

今天你家模型数学榜第一。

明天我家模型代码榜第一。

后天另一家宣布:

“不好意思,我们在某某国际权威基准测试上超过了所有人。”

听起来很厉害。

但用户打开产品以后,常常是另一种画风:

榜单:世界第一
实际使用:复制粘贴都能翻车

榜单:推理能力超强
实际使用:让它改个表格,像刚学会用鼠标

榜单:多模态领先
实际使用:识图识成玄学现场

这就像一个人简历写着“精通 Excel”,结果入职第一天问你:

“哥,怎么合并单元格?”

6月5日,腾讯云 AI 产业应用大会上,腾讯首席 AI 科学家、混元大模型及 AI Infra 负责人姚顺雨说了一句很值得琢磨的话:

AI 的实用价值,高于“刷榜”价值。

这句话不复杂。

但在今天的 AI 圈,说出来就有点像往热油锅里倒冰水。

因为它戳中了一个行业真相:

很多模型不是不好,只是太爱证明自己“很强”,却没证明自己“有用”。

---

一、为什么AI公司这么爱刷榜?

因为榜单是最便宜的营销。

一个模型到底好不好用,真实用户要试,企业客户要测,开发者要接,场景要跑。

这很慢。

也很丑。

一旦进真实场景,模型就会遇到各种不讲武德的问题:

用户问题不规范
业务数据不完整
系统接口很古老
上下文又臭又长
老板需求天天变
合规边界还很紧

这时候模型再强,也得低头做人。

但榜单不一样。

榜单有标准题。

榜单有测试集。

榜单有分数。

榜单最适合做 PPT。

你只要把那个最高分截图放大,再配一句“全面领先”,投资人、媒体、用户都能先兴奋三分钟。

所以刷榜这件事,本质上是 AI 行业的“高考喜报”。

问题是:

高考状元不一定会做产品,榜单第一也不一定能帮用户省时间。

---

二、姚顺雨这句话,真正说的是“AI下半场”

这次不是一个孤立发言。

在 2026 腾讯云 AI 产业应用大会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生和姚顺雨同台对谈,主题就是腾讯 AI 的下半场。

外界一直有个问题:

腾讯 AI 是不是慢了?

汤道生的回应大意是,腾讯赛道很多,有些地方慢,有些地方快,有些也确实做失败过,但这是长跑。

姚顺雨也提到,过去模型和产品走过弯路是正常的,AI 下半场更重要的是持续改变和保持耐心。

这背后的意思其实很明确:

AI 上半场拼的是“我有没有模型”。

AI 下半场拼的是“我的模型到底能不能进产品、进业务、进工作流”。

以前大家卷参数、卷榜单、卷发布会。

以后要卷的是:

  • 能不能降低用户成本?
  • 能不能减少真实错误?
  • 能不能接住复杂场景?
  • 能不能稳定产生价值?
  • 能不能让用户愿意持续付费?

这才是实用价值。

这也解释了为什么姚顺雨会强调“基于产品、基于真正应用,构造更真实的 eval”。

说人话就是:

别只在考场里考满分,出来接个真实需求试试。

---

三、榜单最大的问题:它回答的是“会不会”,不是“值不值”

AI 榜单当然不是没用。

它能说明模型在某些能力维度上达到了什么水平。

比如数学、代码、推理、多模态、知识问答。

问题是,榜单通常回答的是:

这个模型会不会做这类题?

但用户真正关心的是:

它值不值得我在工作里用?

这两个问题差得很远。

举个很简单的例子。

一个模型在代码榜上分数很高,不代表它能帮你维护一个祖传项目。

因为真实项目不是题库。

真实项目里有:

没人敢删的旧代码
五年前留下的变量名
产品临时改的需求
测试环境玄学报错
文档写了但像没写

模型能不能在这种环境里稳定干活,榜单很难告诉你。

再比如,一个模型中文写作榜很高,不代表它能写出你公众号想要的味儿。

它可能句句正确。

但读起来像集团年会主持稿。

正确,但没人想看。

---

四、腾讯为什么有资格讲“实用价值”?

这里不是给腾讯吹彩虹屁。

腾讯过去在 AI 上确实经常被说“慢”。

但它有一个很多模型公司没有的东西:

大量真实产品出口。

微信、QQ、腾讯会议、腾讯文档、企业微信、腾讯云、元宝、ima、WorkBuddy……

这些产品不是 demo。

是每天有人真的在用、真的会骂、真的会产生反馈的数据场。

姚顺雨在对谈中提到,好的产品能提供 context 支持;元宝的 Co-Design 能让腾讯模型形成聊天和搜索能力,这些能力又能迁移到 ima、WorkBuddy 等产品里,不同产品提供的数据还能相互泛化,形成网络体系。

这段话听起来有点技术。

翻译一下:

真正有价值的 AI,不是一个模型孤零零地聪明,而是一堆产品场景不断喂它真实问题,让它越用越接地气。

这才是大厂的优势。

不是模型参数表写得漂亮。

而是有足够多真实用户,把模型从“实验室学霸”逼成“职场老油条”。

---

五、对创业公司和开发者意味着什么?

如果你是 AI 创业公司,这句话有点扎心。

因为它意味着:

光说模型强,越来越不够了。

你得证明:

  • 用户为什么非用你不可?
  • 你解决了哪个具体问题?
  • 你的结果比人工便宜多少?
  • 你的错误率有没有降下来?
  • 你的产品能不能每天被用?

以前 AI 公司讲故事:

我们模型能力领先
我们团队背景顶级
我们榜单表现优秀
我们未来空间巨大

以后用户会问:

能不能少加班?
能不能少出错?
能不能少花钱?
能不能真的上线?
能不能别只会演示?

这才是 AI 公司的成人礼。

对开发者也一样。

别再只追“哪个模型排行榜第一”。

你真正该关心的是:

这个模型接我的业务稳不稳?
工具调用准不准?
长上下文会不会丢重点?
成本能不能扛住日常使用?
出了错我能不能定位?

模型榜单可以参考。

但别把它当信仰。

信榜单信到最后,很容易买到一台“考试很厉害、上班很摸鱼”的 AI。

---

六、AI下半场,真正的好模型长什么样?

我觉得至少有三个标准。

---

1. 不只会答题,还会进流程

用户不是为了看模型聊天。

用户是为了完成任务。

能不能写完报告,能不能接进工单,能不能调工具,能不能连数据库,能不能生成可执行结果。

这才是关键。

一个只会说“根据您的需求,我建议……”的模型,在下半场会越来越尴尬。

因为用户不缺建议。

用户缺的是:

你能不能把活干了?

---

2. 不只追大,还要追稳

姚顺雨也提到过一个方向:用相对小模型实现强鲁棒性,在中国可能比一味追性能更有价值。

这个判断很现实。

不是所有场景都需要最强大模型。

很多企业真正需要的是:

成本低
速度快
稳定
可控
能私有化
能长期跑

大模型当然厉害。

但如果每次调用都贵得像请外援,企业也不敢天天用。

AI 要从“炫技”变成“水电煤”,就必须便宜、稳定、可持续。

---

3. 不只会展示,还要能复盘

真实业务里,AI 不可能永远正确。

关键不是不犯错。

关键是:

  • 错在哪里?
  • 为什么错?
  • 能不能追踪?
  • 能不能改进?
  • 能不能形成下一次更好的反馈?

这也是“真实 eval”的意义。

不是拿一套题考完就结束。

而是在产品里持续评估:

用户到底有没有被帮到?

这个问题,比任何排行榜都残酷。

---

最后说个扎心的

AI 圈现在最不缺的,就是“世界第一”。

今天这个世界第一。

明天那个世界第一。

第一多到像批发。

但用户真正想要的不是第一。

用户想要的是:

这玩意儿到底能不能让我少踩坑、少返工、少加班、少花钱?

姚顺雨这句话之所以值得写,不是因为它多惊天动地。

而是因为它提醒了一个最朴素的事实:

AI 的价值,不在榜单上。

AI 的价值,在用户真的用它解决了什么问题。

刷榜能赢一场发布会。

实用,才能赢一门生意。

---

现在问题来了:

你现在用 AI,看重的是“模型榜单第一”,还是“它真的帮你把活干了”?

评论区说实话。

别装成自己每天都在研究 benchmark。👇

---

参考信息:第一财经《腾讯姚顺雨:AI实用价值高于“刷榜”价值》、每日经济新闻《腾讯AI慢了吗?姚顺雨回应》、虎嗅《腾讯汤道生对话姚顺雨》、南方财经《汤道生对话姚顺雨,腾讯AI下半场是什么?》。