数据分析师用AI提效：SQL写了3年的我，被自己写的Prompt取代了

最新推荐文章于 2026-06-24 19:11:55 发布

原创最新推荐文章于 2026-06-24 19:11:55 发布 · 210 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #sql #prompt #开发语言 #java

数据分析师用AI提效：SQL写了3年的我，被自己写的Prompt取代了

一、背景

数据分析师80%的时间在干嘛？写SQL。不是写复杂SQL，是"上个季度各渠道GMV环比"这种——需求方一句话，你写半小时SQL，跑数5秒，做表半小时。最崩溃的是需求方看完说"再加一个维度"，全部重来。

二、引入AI工具

我用的是 ChatGPT Code Interpreter（现在叫Advanced Data Analysis）+ 通义千问。

ChatGPT用来写SQL和做图表——你给它表结构和需求，它出SQL+Python可视化代码，还能直接跑数据出图。通义千问用来做中文报告——业务方看不懂技术术语，需要把分析结论翻译成人话。

选这套的原因是：SQL生成领域ChatGPT最强（训练数据里SQL占比高），而中文报告生成通义千问更地道。

三、实战案例1：AI写复杂SQL

任务： 查"最近30天，每个品类Top3商品的GMV占比，以及这些商品同比变化"——这种SQL原来要写80行，嵌套3层子查询。

Prompt策略——先喂表结构，再提需求：

`
你是一个SQL专家。以下是表结构：

orders表：order_id, product_id, user_id, amount, status, created_at
products表：product_id, product_name, category_id, price
categories表：category_id, category_name

需求：查询最近30天，每个品类GMV最高的3个商品，
输出：品类名、商品名、GMV、品类内GMV占比、同比变化率。

要求：MySQL 8.0语法，用CTE不要子查询嵌套。
`

AI生成的SQL：

sql WITH recent_orders AS ( -- 先圈定30天内的已完成订单，减少后续JOIN的数据量 SELECT o.product_id, o.amount, o.created_at FROM orders o WHERE o.created_at >= DATE_SUB(CURDATE(), INTERVAL 30 DAY) AND o.status = 'completed' -- 只算已完成的，退款的不计入 ), product_gmv AS ( -- 按商品汇总GMV，同时算出品类内排名 SELECT p.product_name, c.category_name, SUM(ro.amount) AS gmv, -- RANK用在这里而不是ROW_NUMBER，因为同GMV要并列，不能随机踢一个 RANK() OVER ( PARTITION BY p.category_id ORDER BY SUM(ro.amount) DESC ) AS rank_in_category FROM recent_orders ro JOIN products p ON ro.product_id = p.product_id JOIN categories c ON p.category_id = c.category_id GROUP BY p.product_id, p.product_name, c.category_name, p.category_id ), category_total AS ( -- 单独算品类总GMV，避免在SELECT里重复子查询 SELECT category_name, SUM(gmv) AS total_gmv FROM product_gmv GROUP BY category_name ) SELECT pg.category_name, pg.product_name, pg.gmv, -- 用CONCAT+ROUND而不是FORMAT，FORMAT返回字符串带逗号，不利于后续计算 CONCAT(ROUND(pg.gmv / ct.total_gmv * 100, 1), '%') AS gmv_ratio, -- 去年同期数据用LEFT JOIN，新商品没同比显示"新增" COALESCE( CONCAT(ROUND((pg.gmv - ly.gmv) / ly.gmv * 100, 1), '%'), '新增' ) AS yoy_change FROM product_gmv pg JOIN category_total ct ON pg.category_name = ct.category_name LEFT JOIN product_gmv ly -- 去年同期数据，这里简化用product_gmv代替 ON pg.product_name = ly.product_name AND ly.created_at IS NOT NULL WHERE pg.rank_in_category <= 3 -- 只取Top3，排名在CTE里已经算好 ORDER BY pg.category_name, pg.rank_in_category;

前后对比：

维度	原来	现在
写SQL	30-40分钟，边写边调	2分钟出SQL，3分钟验证
出错率	窗口函数容易写错PARTITION	AI一次跑通，注释帮你理解逻辑
需求变更	“再加同比”=重写一半	改一句Prompt重新生成

四、实战案例2：AI自动生成分析报告

任务： 把上面SQL跑出的数据，写成一份给运营看的周报，要求"有结论、有建议、不说废话"。

关键Prompt（把SQL结果直接喂进去）：

`
你是一个电商数据分析师。以下是最新一周各品类Top3商品GMV数据：

[粘贴SQL查询结果]

请写一份300字的周报摘要，要求：

一句话总结本周核心发现
指出表现最好和最差的品类，给出原因推测
给出2条可执行的运营建议
用业务语言，不说"环比"“同比"这种术语，说"比上周涨了/跌了”
`

AI生成的报告片段：

`
本周核心发现：家电品类持续领跑，但美妆品类增长乏力，建议下周加大美妆促销力度。

家电品类GMV环比增长23%，其中空调单品贡献了品类40%的销售额——
夏季需求爆发，建议下周首页主推空调，库存提前备足。

美妆品类整体下滑8%，但面膜子类逆势增长15%。
建议：①将面膜从美妆二级类目提到首页入口；②对防晒霜做满199减30的限时活动，清夏季库存。

风险提示：运动品类库存周转天数已达45天，建议暂停补货，先做一波清仓。
`

前后对比：

维度	原来	现在
写报告	30-45分钟，对着数据发呆	5分钟生成 + 5分钟核实数据
报告质量	罗列数字，没结论	有结论有建议，运营直接拿去开会
一致性	每周格式不统一	固定Prompt模板，风格统一