一堆格式乱七八糟的数据要清洗标准化,我让 Agent 干了大半

接手过一批历史数据,那叫一个惨:地址有的带省有的不带、电话格式五花八门、日期"2026/6/1""26年6月""6.1"什么都有、公司名各种简称全称混着。要入库前标准化,纯写规则能写吐——情况太多,正则根本枚举不完。

这种"规则多到写不完、但人一看就懂"的清洗,Agent 比硬规则灵活。说说做法。

思路:规则能搞定的归规则,搞不定的交 Agent

别指望 Agent 干所有事。明确格式的(比如电话去空格)用规则又快又准;真正乱、需要"理解"的(地址补全、公司名归一、模糊日期解析)才交给 Agent。

我用讯飞星辰搭了个"标准化助手",设定里写清楚目标格式和规则,把脏字段丢给它,输出标准化后的结果。规则+Agent 配合,比纯规则覆盖广,比纯 Agent 省钱。

关键

  • 输出要结构化:让它返回固定字段的 JSON,下游直接入库(输出不稳的问题前面文章聊过,得约束)。

  • 拿不准别瞎填:识别不了的字段,让它标"存疑"而不是硬编一个,留人工复核。

  • 抽检:清洗结果一定要抽样核对,别清完直接全量入库,错了就是脏上加脏。

  • 它会"自信地标准化错",比如把不同的公司归成一个。关键字段宁可保守。

  • 量大算成本,海量数据先用规则过一遍,剩下规则搞不定的再喂 Agent。

  • 不可逆操作留原始:清洗后另存,别覆盖原始数据。

规则 + Agent 配合清洗,又快又能 handle 脏 case。怎么划分"规则管哪些、Agent 管哪些",我放评论区了。你们清洗脏数据都咋扛的?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值