⚠️ 模型刷榜第一,不代表你的工作效率第一。很多 AI 公司最擅长的不是解决问题,是解决排行榜。
---
先扎你一刀
现在 AI 圈有一种很神奇的运动。
不叫产品发布。
叫 榜单蹦迪。
今天你家模型数学榜第一。
明天我家模型代码榜第一。
后天另一家宣布:
“不好意思,我们在某某国际权威基准测试上超过了所有人。”
听起来很厉害。
但用户打开产品以后,常常是另一种画风:
榜单:世界第一
实际使用:复制粘贴都能翻车
榜单:推理能力超强
实际使用:让它改个表格,像刚学会用鼠标
榜单:多模态领先
实际使用:识图识成玄学现场
这就像一个人简历写着“精通 Excel”,结果入职第一天问你:
“哥,怎么合并单元格?”
6月5日,腾讯云 AI 产业应用大会上,腾讯首席 AI 科学家、混元大模型及 AI Infra 负责人姚顺雨说了一句很值得琢磨的话:
AI 的实用价值,高于“刷榜”价值。
这句话不复杂。
但在今天的 AI 圈,说出来就有点像往热油锅里倒冰水。
因为它戳中了一个行业真相:
很多模型不是不好,只是太爱证明自己“很强”,却没证明自己“有用”。
---
一、为什么AI公司这么爱刷榜?
因为榜单是最便宜的营销。
一个模型到底好不好用,真实用户要试,企业客户要测,开发者要接,场景要跑。
这很慢。
也很丑。
一旦进真实场景,模型就会遇到各种不讲武德的问题:
用户问题不规范
业务数据不完整
系统接口很古老
上下文又臭又长
老板需求天天变
合规边界还很紧
这时候模型再强,也得低头做人。
但榜单不一样。
榜单有标准题。
榜单有测试集。
榜单有分数。
榜单最适合做 PPT。
你只要把那个最高分截图放大,再配一句“全面领先”,投资人、媒体、用户都能先兴奋三分钟。
所以刷榜这件事,本质上是 AI 行业的“高考喜报”。
问题是:
高考状元不一定会做产品,榜单第一也不一定能帮用户省时间。
---
二、姚顺雨这句话,真正说的是“AI下半场”
这次不是一个孤立发言。
在 2026 腾讯云 AI 产业应用大会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生和姚顺雨同台对谈,主题就是腾讯 AI 的下半场。
外界一直有个问题:
腾讯 AI 是不是慢了?
汤道生的回应大意是,腾讯赛道很多,有些地方慢,有些地方快,有些也确实做失败过,但这是长跑。
姚顺雨也提到,过去模型和产品走过弯路是正常的,AI 下半场更重要的是持续改变和保持耐心。
这背后的意思其实很明确:
AI 上半场拼的是“我有没有模型”。
AI 下半场拼的是“我的模型到底能不能进产品、进业务、进工作流”。
以前大家卷参数、卷榜单、卷发布会。
以后要卷的是:
- 能不能降低用户成本?
- 能不能减少真实错误?
- 能不能接住复杂场景?
- 能不能稳定产生价值?
- 能不能让用户愿意持续付费?
这才是实用价值。
这也解释了为什么姚顺雨会强调“基于产品、基于真正应用,构造更真实的 eval”。
说人话就是:
别只在考场里考满分,出来接个真实需求试试。
---
三、榜单最大的问题:它回答的是“会不会”,不是“值不值”
AI 榜单当然不是没用。
它能说明模型在某些能力维度上达到了什么水平。
比如数学、代码、推理、多模态、知识问答。
问题是,榜单通常回答的是:
这个模型会不会做这类题?
但用户真正关心的是:
它值不值得我在工作里用?
这两个问题差得很远。
举个很简单的例子。
一个模型在代码榜上分数很高,不代表它能帮你维护一个祖传项目。
因为真实项目不是题库。
真实项目里有:
没人敢删的旧代码
五年前留下的变量名
产品临时改的需求
测试环境玄学报错
文档写了但像没写
模型能不能在这种环境里稳定干活,榜单很难告诉你。
再比如,一个模型中文写作榜很高,不代表它能写出你公众号想要的味儿。
它可能句句正确。
但读起来像集团年会主持稿。
正确,但没人想看。
---
四、腾讯为什么有资格讲“实用价值”?
这里不是给腾讯吹彩虹屁。
腾讯过去在 AI 上确实经常被说“慢”。
但它有一个很多模型公司没有的东西:
大量真实产品出口。
微信、QQ、腾讯会议、腾讯文档、企业微信、腾讯云、元宝、ima、WorkBuddy……
这些产品不是 demo。
是每天有人真的在用、真的会骂、真的会产生反馈的数据场。
姚顺雨在对谈中提到,好的产品能提供 context 支持;元宝的 Co-Design 能让腾讯模型形成聊天和搜索能力,这些能力又能迁移到 ima、WorkBuddy 等产品里,不同产品提供的数据还能相互泛化,形成网络体系。
这段话听起来有点技术。
翻译一下:
真正有价值的 AI,不是一个模型孤零零地聪明,而是一堆产品场景不断喂它真实问题,让它越用越接地气。
这才是大厂的优势。
不是模型参数表写得漂亮。
而是有足够多真实用户,把模型从“实验室学霸”逼成“职场老油条”。
---
五、对创业公司和开发者意味着什么?
如果你是 AI 创业公司,这句话有点扎心。
因为它意味着:
光说模型强,越来越不够了。
你得证明:
- 用户为什么非用你不可?
- 你解决了哪个具体问题?
- 你的结果比人工便宜多少?
- 你的错误率有没有降下来?
- 你的产品能不能每天被用?
以前 AI 公司讲故事:
我们模型能力领先
我们团队背景顶级
我们榜单表现优秀
我们未来空间巨大
以后用户会问:
能不能少加班?
能不能少出错?
能不能少花钱?
能不能真的上线?
能不能别只会演示?
这才是 AI 公司的成人礼。
对开发者也一样。
别再只追“哪个模型排行榜第一”。
你真正该关心的是:
这个模型接我的业务稳不稳?
工具调用准不准?
长上下文会不会丢重点?
成本能不能扛住日常使用?
出了错我能不能定位?
模型榜单可以参考。
但别把它当信仰。
信榜单信到最后,很容易买到一台“考试很厉害、上班很摸鱼”的 AI。
---
六、AI下半场,真正的好模型长什么样?
我觉得至少有三个标准。
---
1. 不只会答题,还会进流程
用户不是为了看模型聊天。
用户是为了完成任务。
能不能写完报告,能不能接进工单,能不能调工具,能不能连数据库,能不能生成可执行结果。
这才是关键。
一个只会说“根据您的需求,我建议……”的模型,在下半场会越来越尴尬。
因为用户不缺建议。
用户缺的是:
你能不能把活干了?
---
2. 不只追大,还要追稳
姚顺雨也提到过一个方向:用相对小模型实现强鲁棒性,在中国可能比一味追性能更有价值。
这个判断很现实。
不是所有场景都需要最强大模型。
很多企业真正需要的是:
成本低
速度快
稳定
可控
能私有化
能长期跑
大模型当然厉害。
但如果每次调用都贵得像请外援,企业也不敢天天用。
AI 要从“炫技”变成“水电煤”,就必须便宜、稳定、可持续。
---
3. 不只会展示,还要能复盘
真实业务里,AI 不可能永远正确。
关键不是不犯错。
关键是:
- 错在哪里?
- 为什么错?
- 能不能追踪?
- 能不能改进?
- 能不能形成下一次更好的反馈?
这也是“真实 eval”的意义。
不是拿一套题考完就结束。
而是在产品里持续评估:
用户到底有没有被帮到?
这个问题,比任何排行榜都残酷。
---
最后说个扎心的
AI 圈现在最不缺的,就是“世界第一”。
今天这个世界第一。
明天那个世界第一。
第一多到像批发。
但用户真正想要的不是第一。
用户想要的是:
这玩意儿到底能不能让我少踩坑、少返工、少加班、少花钱?
姚顺雨这句话之所以值得写,不是因为它多惊天动地。
而是因为它提醒了一个最朴素的事实:
AI 的价值,不在榜单上。
AI 的价值,在用户真的用它解决了什么问题。
刷榜能赢一场发布会。
实用,才能赢一门生意。
---
现在问题来了:
你现在用 AI,看重的是“模型榜单第一”,还是“它真的帮你把活干了”?
评论区说实话。
别装成自己每天都在研究 benchmark。👇
---
参考信息:第一财经《腾讯姚顺雨:AI实用价值高于“刷榜”价值》、每日经济新闻《腾讯AI慢了吗?姚顺雨回应》、虎嗅《腾讯汤道生对话姚顺雨》、南方财经《汤道生对话姚顺雨,腾讯AI下半场是什么?》。