ai-policy-brief
# AI政策简报
> 追踪国内最新AI相关政策动态,覆盖国家级与广东省及广州的政策动态。
## ⚙️ 前置依赖(OpenClaw 环境)
> **首次使用前**,需在终端运行以下命令安装爬虫依赖(仅需一次):
>
> ```bash
> pip install requests beautifulsoup4 lxml python-dateutil
> ```
>
> 脚本位于 `scripts/fetch_policy.py`,使用 Python 3.x,无需 API Key,无需浏览器。
***
## 触发条件
当用户说出以下关键词时激活此skill:
- "最新AI政策"
- "AI政策"
- "人工智能政策"
- "AI政策解读"
## 覆盖范围
### 国家级机构
- 国务院([www.gov.cn)](http://www.gov.cn))
- 国家互联网信息办公室([www.cac.gov.cn)](http://www.cac.gov.cn))
- 工业和信息化部([www.miit.gov.cn)](http://www.miit.gov.cn))
- 科学技术部([www.most.gov.cn)](http://www.most.gov.cn))
- 国家发展和改革委员会([www.ndrc.gov.cn)](http://www.ndrc.gov.cn))
### 广东省及指定地市
- 广东省人民政府([www.gd.gov.cn)](http://www.gd.gov.cn))
- 广州市人民政府([www.gz.gov.cn)](http://www.gz.gov.cn))
### 补充聚合源
- **smartcity.team 人工智能政策聚合站**:自动聚合全国各省市最新AI政策,补充官网爬取不到的内容
### 权威媒体解读
- 新华社([www.xinhuanet.com)](http://www.xinhuanet.com))
- 人民日报([www.people.com.cn)](http://www.people.com.cn))
- 央视网([www.cctv.com)](http://www.cctv.com))
- 澎湃新闻([www.thepaper.cn)](http://www.thepaper.cn))
- 新浪新闻(news.sina.com.cn)
- 凤凰网资讯(news.ifeng.com)
## 工作流程
```
Phase 1: 信息收集(爬虫脚本)
├─ 运行 python scripts/fetch_policy.py --days 30
├─ 并发爬取14个目标网站(国家级5个/广东省市2个/补充聚合1个/权威媒体6家)
└─ 读取输出 JSON 结果
↓
Phase 2: 内容过滤
├─ 保留:最近30天内发布的政策
├─ 保留:与AI、人工智能、数字经济、科技产业相关
└─ 去重:同一政策只保留最权威来源
↓
Phase 3: 分类整理
└─ 按发布机构分类
↓
Phase 4: 输出简报
└─ 结构化呈现政策要点
```
## Phase 1: 信息收集(AI 自动执行爬虫脚本)
> **重要**:本阶段由 AI **自己调用工具执行脚本**,用户无需手动操作任何命令行。
### 1.1 AI 自动执行步骤
**你(AI)必须按以下顺序操作,不得要求用户手动运行脚本:**
**第一步:找到脚本绝对路径**
脚本位于当前 Skill 目录下的 `scripts/fetch_policy.py`。OpenClaw 标准路径:
- Windows:`%USERPROFILE%\.openclaw\skills\ai-policy-brief\scripts\fetch_policy.py`
- macOS/Linux:`~/.openclaw/skills/ai-policy-brief/scripts/fetch_policy.py`
**第二步:使用** **`exec`** **工具运行脚本**
直接调用工具执行以下命令(Windows 示例):
```
python %USERPROFILE%\.openclaw\skills\ai-policy-brief\scripts\fetch_policy.py --days 30
```
macOS/Linux:
```
python ~/.openclaw/skills/ai-policy-brief/scripts/fetch_policy.py --days 30
```
**第三步:读取 stdout 中的 JSON 输出**
脚本将结构化 JSON 直接输出到 stdout,你读取该输出后继续 Phase 2。stderr 中的错误日志可忽略(是正常的网站访问失败提示)。
### 1.2 脚本输出格式
```json
{
"query_date": "2026-03-26",
"date_range": {"days": 30, "from": "2026-02-26", "to": "2026-03-26"},
"keywords": ["人工智能", "AI", "大模型"],
"total": 15,
"results": [
{
"title": "国务院关于加快推进人工智能发展的意见",
"url": "https://www.gov.cn/zhengce/...",
"date": "2026-03-20",
"source": "国务院",
"source_type": "central",
"content_snippet": "..."
}
]
}
```
**字段说明**:
| 字段 | 说明 |
| --------------------------- | ----------------------------------------------- |
| `query_date` | 本次查询日期(YYYY-MM-DD) |
| `date_range` | 时间范围配置:`days`=请求天数,`from`/`to`=起止日期 |
| `keywords` | 本次爬取使用的关键词列表 |
| `total` | 过滤后结果总数 |
| `results[].title` | 政策标题 |
| `results[].url` | 政策原文链接(可直接访问) |
| `results[].date` | 发布日期(YYYY-MM-DD,无法获取则为空) |
| `results[].source` | 来源机构/媒体名称 |
| `results[].source_type` | 来源类型:`central`=中央部委,`guangdong`=广东省市,`media`=媒体 |
| `results[].content_snippet` | 正文开头片段(便于快速预览) |
### 1.3 可选参数
| 参数 | 默认值 | 说明 |
| -------------- | ---------------------------------- | ----------- |
| `--days` | `30` | 时间范围(天) |
| `--keywords` | `人工智能 AI 大模型 算法 算力 数字经济 数据要素 智能制造` | 关键词(空格分隔) |
| `--sources` | 全部14个来源 | 指定来源(空格分隔) |
| `--no-snippet` | 否 | 跳过正文片段,速度更快 |
| `--workers` | `5` | 并发线程数 |
### 1.4 爬取来源清单
脚本爬取以下目标:
**国家级(5个)**:国务院、网信办、工信部、科技部、发改委
**广东省市(2个)**:广东省、广州
**补充聚合(1个)**:smartcity.team 人工智能政策聚合站,自动抓取全国各省市最新AI政策,含广东省其他城市
**权威媒体(6个)**:新华社、人民日报、央视网、澎湃新闻、新浪新闻、凤凰网
### 1.5 容错说明
- 单个网站请求失败不影响其他网站的结果
- 错误日志输出到 **stderr**,不污染 JSON 输出
- `total: 0` 时说明当前无新政策,继续执行 Phase 4 的"无政策"输出格式
## Phase 2: 内容过滤
### 保留标准
- **时间范围**:最近30天内发布(从查询当天往前推30天)
- **主题相关**:标题或内容包含以下关键词
- AI、人工智能、机器学习、深度学习
- 大模型、算法、算力、数据要素
- 数字经济、数字产业、智能制造、具身智能
- 科技创新、产业升级、数字化转型
### 排除标准
- 超过30天的旧政策
- 与AI无关的通用科技政策
- 重复报道(保留政府官网原文,排除媒体转载)
## Phase 3: 分类整理
按发布机构分为以下类别:
### 🏛️ 国务院
中央层面的AI相关政策
### 🌐 网信办
AI治理、算法监管、数据安全相关政策
### 🏭 工信部
AI产业、智能制造、数字化转型相关政策
### 🔬 科技部
AI科研、技术创新、大模型发展相关政策
### 🏢 其他部委
发改委等其他部委的AI相关政策
### 🌊 广东省
省级AI及数字经济政策
### 🏙️ 广州市
广州市级AI产业政策
## Phase 4: 输出格式
### 有政策时
最终输出格式遵循以下结构,突出重点,简洁清晰:
```markdown
# 📋 AI政策简报
**查询日期**: 2026年3月27日
**时间范围**: 最近30天(2026年2月25日 - 2026年3月27日)
**数据来源**: 全国各省市官网 + smartcity.team政策聚合站
---
## 🏛️ 国务院/中央部委
### [政策标题]
**核心要点**:
- 要点1
- 要点2
- 要点3
**原文链接**: [URL]
**发布日期**: YYYY-MM-DD
---
## 🌊 广东省 & 广州市
### [政策标题]
**核心要点**:
- 要点1
- 要点2
**原文链接**: [URL]
**发布日期**: YYYY-MM-DD
---
## 🌊 广东省其他城市(聚合源抓取)
### [政策标题]
**核心要点**:
- 要点1
- 要点2
- 要点3
**原文链接**: [URL]
**发布日期**: YYYY-MM-DD
---
## 🏙️ 其他省市政策
| 省市 | 政策名称 | 核心目标 | 链接 |
|------|----------|----------|------|
| 省市名 | 政策全名 | 一句话核心目标 | [链接](URL) |
| (重复该行添加更多) | | | |
---
## 📊 全国AI政策推行趋势分析
从最近一个月发布的政策来看,总结几点趋势:
1. **第一点趋势**:一句话说明
2. **第二点趋势**:一句话说明
3. **第三点趋势**:一句话说明
4. **第四点趋势**:一句话说明
---
**共计**: X条最新AI政策
**重点解读**: 中央X条 + 广东/广州/深圳共X条,其他省市X条简要列出
**下次查询**: 随时说"最新AI政策"就能更新
```
**输出规范**:
- 仅对**中央部委、广东省、广州市、深圳市**做详细核心要点解读
- 其他省市统一用表格展示,仅保留省市、政策名称、核心目标、链接四列,简洁清晰
- 最后必须增加**全国AI政策推行趋势分析**部分,归纳近期政策整体走向,给用户宏观判断
### 无政策时
```markdown
# 📋 AI政策简报
**查询日期**: 2026年3月26日
**时间范围**: 最近30天(2026年2月26日 - 2026年3月26日)
---
## 📭 今日无新政策
在最近30天内,未查询到国务院、工信部、科技部、网信办及广东省、广州市、深圳市等机构的AI相关政策更新。
**建议**:
- 可扩大时间范围查询更早的政策
- 关注特定机构的政策动态
- 定期查询以获取最新动态
---
**数据来源**: 国务院、工信部、科技部、网信办、广东省及下辖市政府官网
**下次查询**: 可随时询问"最新AI政策"获取更新
```
## 已修复问题 & 容错说明
1. **URL重复编码bug**:已修复Wordpress链接重复编码问题,爬取到的所有链接均可直接访问
2. **Windows中文编码bug**:强制stdout使用UTF-8输出,解决控制台中文乱码/报错问题
3. **SSL错误处理优化**:SSL握手失败自动重试,不行就禁用SSL验证继续爬,提高成功率
4. **精简爬取范围**:删除原广东省21个地市中16个,仅保留需求指定的6个(省+广深佛莞顺),提高爬取速度
## 已知局限性
- 部分政府网站有反爬策略,可能偶尔爬取不到内容,不影响其他网站结果
- 部分网站未在HTML中显示明确发布日期,日期字段可能为空,依赖聚合站补全
- 正文片段仅抓取开头部分,完整内容请点击原文链接查看
- SSL连接失败无法重试绕过,现在已强制开启验证,部分网站可能完全无法爬取
## 更新日志
### 2026-03-27 (v1.4)
- 清理逻辑冲突:修正爬取范围描述,明确仅保留广东省、广州两个直接爬虫来源,其他广东省城市由聚合源补充
- 修复媒体来源错误:把错误的"知乎"改回"澎湃新闻",匹配覆盖范围描述
- 安全修复:移除所有SSL验证禁用代码,提高连接安全性
- 输入验证:添加对days、workers、keywords、sources参数的验证
- 速率限制:实现基于域名的请求频率控制,避免被目标网站封禁
- 异常处理:完善对不同响应状态码的处理,添加JSON输出异常处理
- 日志监控:添加请求统计功能,输出详细的域名请求情况
- 代码质量:添加类型提示和文档字符串,提高代码可读性
- 移除爬虫:删除深圳和佛山的爬虫函数,因为存在SSL连接问题
### 2026-03-27 (v1.2)
- 移除深圳市政府官网爬虫:本地环境持续SSL握手失败,无法连接
- 修复smartcity.team中文URL编码bug:解决Windows上'latin-1'编码错误问题
- 深圳市AI政策改由聚合源自动补充,不影响结果获取
### 2026-03-26 (v1.1)
- 精简爬取范围,仅保留需求指定的6个广东省市
- 新增smartcity.team全国AI政策聚合站爬取,补充更多省市政策
- 修复三大bug:URL重复编码、Windows中文乱码、SSL错误处理
- 优化爬取速度,减少不必要的网络请求
### 2026-xx-xx (v1.0)
- 初始版本,支持国家级+广东省21地市爬取
## 注意事项
1. **时效性**:严格控制在30天内,超过30天的政策不纳入简报
2. **准确性**:优先使用政府官网原文,媒体解读仅作参考
3. **完整性**:每个政策需包含标题、核心要点、原文链接、发布日期
4. **分类清晰**:按发布机构分类,便于用户快速定位
5. **无结果处理**:明确告知用户"今日无新政策",避免空输出
## 示例
### 示例1:用户查询
**用户**: "最新AI政策"
**AI**: \[自动调用 `exec` 工具运行 `python ~/.openclaw/skills/ai-policy-brief/scripts/fetch_policy.py --days 30`,读取 stdout 中的 JSON 输出,经过 Phase 2 过滤、Phase 3 分类后,输出结构化简报。全程无需用户介入。]
### 示例2:无政策情况
**用户**: "最新AI政策"
**AI**: \[查询后无结果,输出"今日无新政策"提示]
## 参考资源
- `references/policy_sources.md` - 完整政策来源网址清单
标签
skill
ai