做AI开发后我才明白：稳定比能力更重要

最新推荐文章于 2026-06-25 20:29:15 发布

原创最新推荐文章于 2026-06-25 20:29:15 发布 · 273 阅读

·

14

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#人工智能 #gpt #ai #deepseek #豆包

AI 大模型专栏收录该内容

3 篇文章

订阅专栏

一开始做AI项目的时候，我其实特别在意“能力”。

比如：

这个模型是不是更强？
回答是不是更聪明？
能不能处理更复杂的问题？

那时候的判断很简单：

能力强 = 更好用

一、第一次让我改变想法的不是“失败”，而是“波动”

真正开始做项目之后，我遇到的不是“不能用”，而是：

有时候很好用，有时候又很奇怪

比如同一个功能：

上午测试结果很好
下午结果开始变不稳定
换个时间又正常

最开始我会以为是代码问题。

但排查下来，很多时候都不是。

二、一个很具体的场景

我做过一个比较简单的功能：自动生成内容摘要

刚开始效果很好：

逻辑清晰
输出稳定
基本不用改

但上线之后开始出现问题：

有时候摘要很完整
有时候会漏掉关键内容
有时候甚至风格变化很大

最麻烦的是：没有明显报错，但体验在变差

三、我一开始的处理方式是“追求更强模型”

那时候我做的事情很直接：

换更强的模型
调更复杂的 prompt
增加限制条件

但结果是：

问题并没有消失，只是换了形式出现。

四、后来我才慢慢意识到问题在哪

真正影响体验的，不是“它能不能做好一次”，而是：它能不能持续保持一致

因为用户不会只用一次。

比如：

第一次觉得不错
第二次觉得还可以
第三次开始觉得不稳定

体验其实是在“下降”，但不是一下子坏掉。

五、我开始重新理解“好用”这件事

以前我理解的“好用”是：

能解决复杂问题
能输出高质量结果

后来变成：

是否稳定
是否可预测
是否不会突然变差

甚至可以说稳定性开始比能力更重要

六、一个很现实的变化

后来我做决策的时候，开始变了：

以前是：

“哪个更强用哪个”

后来变成：

“哪个更稳定用哪个”

有时候甚至会放弃更强的方案，选择稍微简单但稳定的方案。

七、最后

现在回头看，我最明显的变化其实不是技术上的，而是判断标准变了。

我现在更关注的不是：它能不能做到最好

而是：它能不能一直保持“差不多的好”

但这个判断我也不确定是不是完全正确。

因为有时候“能力上限”也很重要。

我有点好奇的是：

如果是你们做AI项目，会更看重“能力上限”，还是“稳定输出”？

或者你们有没有遇到过那种——

第一次很好用，但越用越不稳定的情况？

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。