何鹏林
数据分析师 · SHEIN 供应链管理部
📧 920034033@qq.com 📱 13288460660
4 年数据分析经验。在 SHEIN 搭建断码·滞销·库存数据体系的同时, 将 AI 多 Agent 架构融入日常取数工作流,实现了「一个人的虚拟数据团队」。
AI 多 Agent 数据取数架构
基于 Claude Code 搭建的「一个人的虚拟数据团队」——将多 Agent 分工、强制 Review、知识持久化 融入日常工作流,让 AI 不仅会写 SQL,更拥有完整的工程化交付能力
🧩 架构总览 · 全链路流程
决策层
👤 我 — 定义需求 · 审核结果 · 维护规范
↓ 自然语言需求
编排层
🎯 主会话(Claude Code)
任务拆分 · Agent 分发 · 知识回写
执行层
📊 sql-writer 📋 excel-writer 🔍 data-analyst 📄 doc-writer
↓ 每个产出物必须过审
审查层
✅ data-reviewer(质检卡点·只读)
↓ PASS 才返回 · FAIL 退回修正
📚 wiki/ 知识库 🧠 memory/ 跨会话记忆 📐 conventions/ 规范文件
🤖 Agent 角色详解
📊 sql-writer
专职写 SQL + 执行
  • 启动时自动加载 sql_conventions + wiki 表文档 + 可复用 patterns
  • 不确定字段口径 → 先探查(查 DDL / LIMIT 10 / 看枚举分布),不问用户、不猜
  • 前置逗号格式、分区条件用字面量、率值分子分母分开取
  • 交付前在 DataABC 跑通,结果非空检查
📋 excel-writer
Python 脚本生成 xlsx
  • 颜色语义体系:蓝灰=表头、浅绿=好、橙=关注、浅红=差
  • 永远用原始 tabular 数据聚合,不从透视表硬编码行号
  • 能用公式的计算(差值/同比/合计)必须写公式,不硬编码
  • 覆盖写入前备份旧文件到 versions/ 子文件夹
🔍 data-analyst
数据加工 + 结构化分析
  • 结论标题写断言句,不写描述句。每条结论过五问压力测试
  • R1-R9 护栏:因果链完整、合成效应先拆、趋势最小3周期、占比+绝对量并行
  • 禁用词检查:"说白了""本质上""综上所述"——直接说人话
📄 doc-writer
格式化交付(SDoc / HTML / PPT)
  • 先跑通数字和逻辑,再做可视化(不做回头改数字的事)
  • 管理层汇报:LAYOUT_WIDE,卡片自适应,字号体系规范
  • 模板化交付,保持风格一致
✅ data-reviewer · 强制质检卡点

审查维度

SQL 逻辑分区条件、字段口径、表选择是否正确
数据完整性结果非空、无重复、与指标基线比对
结论支撑断言句、数据→结论护栏是否通过
格式一致性颜色体系、文件名规范、注释是否完备

设计原则

  • 只读角色 — reviewer 只判 PASS/FAIL,不能改数据
  • 强制执行 — 流程硬编码,不可跳过,不可主观判断"改动太小不需要"
  • 独立上下文 — 不共享 writer 的推理过程,避免确认偏误
  • 降级兜底 — Agent 连续失败 2 次 → 停止,报告用户,不无限重试

❌ FAIL 示例

-- reviewer 发现:分区条件用了函数
WHERE substr(dt,1,4) || '-' || ... >= '2026-01'
-- 判定: FAIL
-- 原因: 分区字段套函数 → 全量扫描,数仓禁止
-- 修正: WHERE dt >= '20260101'

✅ PASS 后

1. 结果文件路径返回用户
2. 附数据摘要(行数、关键指标范围)
3. 异常值自动标注(金额为负、部门为空等)
4. Wiki 自动回写(有新知识就追加)
5. Raw_log 更新(如果有需要记录的纠正)
🧠 知识持久化 · 越用越聪明

📚 wiki/ 知识库

AI 自动维护的数仓文档
tables/ 表结构 + 字段说明 + 踩坑记录
sql-patterns/ 可复用查询片段
concepts/ 业务概念定义
lessons/ 取数坑点和解决
log.md 入库变更日志

🧠 memory/ 跨会话记忆

跨对话持久化的纠错和偏好
feedback_* 用户纠正(已固化)
reference_* 业务体系参考
project_* 进行中的项目参数
raw_log.md 实时观测记录

📐 conventions/ 规范

人定标准 + AI 执行
sql_conventions 格式 + 执行限制
excel_conventions 颜色 / 数字 / 图表
analysis_conventions 结论质量
metric_baselines 指标基线值
🔄 知识沉淀闭环示例
用户纠正:"lower() 不对" 记入 raw_log(出现1次) 同类问题再现第3次 自动升级为 memory 正式规则 所有后续会话自动遵守
📈 效果对比

传统方式

  • 每次从零写 SQL,无法复用
  • 口径靠记忆,踩过的坑再踩
  • 自己检查自己的数据
  • 重复工作无法沉淀
  • 一个简单取数 ~30min

多 Agent 方式

  • Wiki 自动积累,越写越快
  • 口径纠正一次,永远不再犯
  • 独立 reviewer 交叉审查
  • 每次任务自动回写知识
  • 一个简单取数 ~3min
🏗️
不是问 AI 一个问题
是用 AI 跑流程
有分工、有卡点、有知识积累
🛡️
AI 犯错靠架构解决
Review卡点 + 纠错自动沉淀
不靠"下次注意"
📈
投入前置,回报复利
写规范、建wiki的成本在前面
后面每次任务都受益
联系我
完整简历请索取 · 欢迎交流数据分析、供应链或 AI Agent 相关话题