做AI开发后我才明白:稳定比能力更重要

一开始做AI项目的时候,我其实特别在意“能力”。

比如:

  • 这个模型是不是更强?
  • 回答是不是更聪明?
  • 能不能处理更复杂的问题?

那时候的判断很简单:

能力强 = 更好用


一、第一次让我改变想法的不是“失败”,而是“波动”

真正开始做项目之后,我遇到的不是“不能用”,而是:

 有时候很好用,有时候又很奇怪

比如同一个功能:

  • 上午测试结果很好
  • 下午结果开始变不稳定
  • 换个时间又正常

最开始我会以为是代码问题。

但排查下来,很多时候都不是。


二、一个很具体的场景

我做过一个比较简单的功能:自动生成内容摘要

刚开始效果很好:

  • 逻辑清晰
  • 输出稳定
  • 基本不用改

但上线之后开始出现问题:

  • 有时候摘要很完整
  • 有时候会漏掉关键内容
  • 有时候甚至风格变化很大

最麻烦的是: 没有明显报错,但体验在变差


三、我一开始的处理方式是“追求更强模型”

那时候我做的事情很直接:

  • 换更强的模型
  • 调更复杂的 prompt
  • 增加限制条件

但结果是:

问题并没有消失,只是换了形式出现。


四、后来我才慢慢意识到问题在哪

真正影响体验的,不是“它能不能做好一次”,而是:它能不能持续保持一致

因为用户不会只用一次。


比如:

  • 第一次觉得不错
  • 第二次觉得还可以
  • 第三次开始觉得不稳定

体验其实是在“下降”,但不是一下子坏掉。


五、我开始重新理解“好用”这件事

以前我理解的“好用”是:

  • 能解决复杂问题
  • 能输出高质量结果

后来变成:

  • 是否稳定
  • 是否可预测
  • 是否不会突然变差

甚至可以说稳定性开始比能力更重要


六、一个很现实的变化

后来我做决策的时候,开始变了:

以前是:

“哪个更强用哪个”

后来变成:

“哪个更稳定用哪个”

有时候甚至会放弃更强的方案,选择稍微简单但稳定的方案。


七、最后

现在回头看,我最明显的变化其实不是技术上的,而是判断标准变了。

我现在更关注的不是:它能不能做到最好

而是:它能不能一直保持“差不多的好”


但这个判断我也不确定是不是完全正确。

因为有时候“能力上限”也很重要。


我有点好奇的是:

如果是你们做AI项目,会更看重“能力上限”,还是“稳定输出”?

或者你们有没有遇到过那种——

第一次很好用,但越用越不稳定的情况?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值