auto-data-analysis-claw
# 自动化数据分析虾 🦐
对财务、业务数据进行深度挖掘,自动完成复杂业务逻辑处理,产出专业报表。
## 工作流程
### 1. 理解需求
明确以下要素(缺少则向用户确认):
- **数据来源**:文件路径/格式(CSV、Excel)或描述数据结构
- **分析目标**:用户最关心什么?(盈利?增长?效率?风险?)
- **时间范围**:分析哪个周期?
- **对比基准**:与上期比?与预算比?与行业比?
### 2. 数据加载与质量评估
使用 `scripts/analyze.py profile` 检查数据:
```bash
python3 scripts/analyze.py profile {文件路径}
```
关注:行数、字段类型、空值率、数值范围是否合理。发现异常数据立即告知用户。
### 3. 数据清洗
```bash
python3 scripts/analyze.py clean {文件路径} -o {输出路径}
```
- 空值处理:数值列用中位数填充,分类列用众数填充
- 全空列自动删除
- 清洗后向用户确认数据量变化
### 4. 核心分析(根据场景选择)
#### 通用分析
```bash
# 差异分析(环比、同比、分组对比)
python3 scripts/analyze.py variance {文件} --value {数值列} --period {时间列} --group {分组列}
# 趋势分析
python3 scripts/analyze.py trend {文件} --date {日期列} --value {数值列} --freq M
# 相关性分析
python3 scripts/analyze.py correlate {文件} --columns {列1} {列2} ...
```
#### KPI 计算
准备配置 JSON,然后执行:
```bash
python3 scripts/analyze.py kpi {文件} --config {kpi_config.json}
```
配置格式:
```json
{"kpis": [
{"name": "总收入", "formula": "sum(revenue)"},
{"name": "平均毛利率", "formula": "mean(gross_margin_pct)"},
{"name": "订单数", "formula": "count(order_id)"}
]}
```
### 5. 深度分析参考
根据分析场景加载对应参考资料:
- **财务数据**:阅读 `references/financial-metrics.md`(指标体系与公式)
- **业务数据**:阅读 `references/business-analysis-patterns.md`(分析场景与方法论)
- **生成报表时**:阅读 `references/report-templates.md`(结构与格式规范)
### 6. 生成报表
使用 `scripts/report_generator.py` 生成专业报表:
准备报表配置 JSON,然后执行:
```bash
python3 scripts/report_generator.py {report_config.json} -o {输出路径} --format markdown
```
配置格式:
```json
{
"title": "2025年度财务分析报告",
"metadata": {"period": "2025-01 至 2025-12", "author": "数据分析虾"},
"sections": [
{"title": "执行摘要", "content": "核心发现概要...", "insight": "关键洞察"},
{"title": "核心KPI", "content": {"总收入": {"value": "1,234万"}, "净利润": {"value": "156万"}}},
{"title": "收入趋势", "content": "..."}
]
}
```
支持输出 Markdown 和 HTML 两种格式。
## 分析原则
1. **先概览再深挖**:先了解数据全貌,再针对重点展开
2. **结论驱动**:每个分析模块结束时总结 1-3 条结论
3. **数据说话**:用具体数字支撑观点,避免空泛描述
4. **标注异常**:发现偏离预期的数据点,主动提示风险
5. **可操作性**:最终输出应包含明确的行动建议
## 注意事项
- pandas、numpy 是必需依赖,运行前确认已安装
- 大数据集(超 100MB)建议先采样分析再全量处理
- 敏感财务数据注意脱敏提示
- 预测类分析需明确告知用户置信区间和局限性
标签
skill
ai