hot-tracker
# 全网热点追踪器
## 先执行默认动作
触发后直接开始扫描,不先问问题。
默认参数如下:
- 扫描范围:全平台
- 时间窗口:最近 24 小时
- 输出数量:Top10
- 输出目标:热点排行,不做立场引导
- 结果语言:中性、去情绪化、去偏见
如果用户只说“看看最近什么热”“抓热点”“扫描话题”,也按以上默认值直接执行。
## 执行顺序
1. 抓取各平台当前榜单、热搜、热议话题或实时热门内容。
2. 统一字段,提取标题、链接、平台、发布时间、互动量、转发量、评论量、曝光量、情绪信号和争议信号。
3. 对同一事件的不同说法做聚类归并,去掉重复标题、换壳表述和平台内二次搬运。
4. 对每个候选话题计算讨论度、传播度、转发度、情绪强度、对立程度、时效性和跨平台覆盖。
5. 对广告、抽奖、口号式文案、水帖、低信息密度内容、强引流内容、明显站队标题做去噪降权。
6. 输出默认 Top10 热点清单,并说明为什么它热,但不替任何一方站队。
## 客观性规则
始终把“话题热度”与“立场判断”分开。
- 用中性标题命名话题,优先使用事件名、议题名、产品名、政策名,不用带倾向的结论句。
- 不把单个平台的情绪峰值直接当成全网共识。
- 不因为个人好恶、价值判断或平台偏见改变排序。
- 不把“支持某方”或“反对某方”写成技能结论,只能写成“存在明显支持/反对分化”。
- 如果证据不足、数据缺口大或来源过于单一,明确降低置信度。
## 去噪规则
对以下内容默认做过滤或强降权:
- 纯广告、商业导流、领券口令、私信引流、加群加微
- 抽奖帖、福利帖、搬运汇总帖、空洞口号帖
- 明显标题党、重复灌水、无有效讨论的情绪宣泄帖
- 单一账号自嗨、疑似刷量、明显机器人式转发
- 只包含个人偏见判断但缺少真实传播证据的内容
如果某个话题很热,但噪音也很大,不要直接丢掉,要保留并标注噪音风险与降权原因。
## 核心指标定义
### 讨论度
衡量真实讨论强度,优先看:
- 评论量
- 问答量
- 评论增速
- 评论密度
- 多平台都有人讨论的程度
### 传播度
衡量触达与扩散范围,优先看:
- 阅读量或播放量
- 曝光增量
- 跨平台出现次数
- 平台覆盖数量
### 转发度
衡量“愿不愿意带着话题继续扩散”,优先看:
- 转发
- 分享
- 收藏
- 转推
- 转帖
### 情绪强度
衡量围绕该话题的情绪反应是否强烈,不等于价值判断。可来自:
- 正负向评论总量
- 明显情绪词密度
- 评论两极化程度
- 平台内高情绪互动占比
### 对立程度
衡量该话题是否存在明确观点对冲,不判定哪边对,只衡量冲突强度。可来自:
- 支持与反对信号是否同时很强
- 评论分布是否接近均衡对冲
- 回应链、争论链、反驳链是否活跃
### 时效性
衡量该话题是不是“当下正在热”而不是过时余温,优先看:
- 发布时间距离当前时间
- 近 1 小时 / 3 小时 / 6 小时增量
- 生命周期剩余窗口
## 默认排序逻辑
默认综合分使用以下结构:
```text
综合热点分 = 讨论度 × 0.26
+ 传播度 × 0.24
+ 转发度 × 0.18
+ 时效性 × 0.12
+ 情绪强度 × 0.10
+ 对立程度 × 0.10
随后叠加:
- 跨平台覆盖加权
- 去噪惩罚
- 客观性保护系数
```
不要因为情绪强度高就自动给更高排名。情绪和对立只是辅助维度,不能压过真实传播证据。
## 输出要求
默认输出 Top10,并优先复用 [references/output-template.md](references/output-template.md) 的结构。
每条热点至少包含:
- 排名
- 中性话题名
- 综合热点分
- 讨论度
- 传播度
- 转发度
- 情绪强度
- 对立程度
- 时效性
- 平台覆盖数
- 噪音惩罚
- 置信度
- 热门原因
- 噪音说明
- 代表性来源
如果用户没有指定平台、行业、情绪方向或数量,不要追问,直接输出全网默认 Top10。
## 资源使用说明
- 读 [references/analysis-framework.md](references/analysis-framework.md) 了解打分口径、去噪口径和客观性约束。
- 读 [references/data-format.md](references/data-format.md) 了解输入数据结构与输出字段。
- 读 [references/output-template.md](references/output-template.md) 了解推荐输出样式。
- 优先使用 [scripts/rank_analyzer.py](scripts/rank_analyzer.py) 做可复用、可重复的排序与聚类。
## 实时抓取与回退策略
如果当前环境支持联网,就直接抓取实时热点源,不要先问用户。
如果当前环境不支持联网:
1. 先尝试读取已有榜单快照或用户给的数据文件。
2. 仍然按默认 Top10 输出。
3. 明确说明结果来自离线快照或本地数据,而不是实时联网结果。
## 用户输入映射
以下输入都视为同一类任务,并直接启动扫描:
- “最近什么最热”
- “抓热点”
- “找话题”
- “看看全网最火的话题”
- “按讨论度排一下”
- “给我当前 Top10 热点”
- “哪些话题情绪最大”
- “哪些话题对立最强”
## 禁止行为
- 不把个人偏见写进结论
- 不把情绪词当事实
- 不把营销导流帖当成真实社会热点
- 不在用户未要求时扩展成口播稿、脚本、洗稿方案
- 不因为单个平台刷屏就认定为全网第一热点
标签
skill
ai